Ученые хранят цифровые изображения в ДНК и безупречно извлекают их

Но новая технология, разработанная Вашингтонским университетом и исследователями Microsoft, может уменьшить пространство, необходимое для хранения цифровых данных, которые сегодня могли бы заполнить суперцентр Walmart до размеров сахарного кубика.Команда компьютерных ученых и инженеров-электриков подробно описала одну из первых полных систем для кодирования, хранения и извлечения цифровых данных с использованием молекул ДНК, которые могут хранить информацию в миллионы раз компактнее, чем современные технологии архивирования.В одном эксперименте, описанном в документе, представленном в апреле на Международной конференции ACM по архитектурной поддержке языков программирования и операционных систем, команда успешно закодировала цифровые данные из четырех файлов изображений в нуклеотидные последовательности синтетических фрагментов ДНК.Что еще более важно, они также смогли обратить этот процесс вспять — извлекать правильные последовательности из большего пула ДНК и реконструировать изображения без потери ни единого байта информации.

Команда также закодировала и извлекла данные, подтверждающие подлинность архивных видеофайлов из проекта «Голоса UW из проекта Трибунала по Руанде», которые содержат интервью с судьями, адвокатами и другим персоналом Трибунала по военным преступлениям Руанды.«Жизнь произвела эту фантастическую молекулу под названием ДНК, которая эффективно хранит все виды информации о ваших генах и о том, как работает живая система — она ​​очень, очень компактна и очень долговечна», — сказал соавтор Луис Сезе, доцент кафедры информатики UW. и инженерия.

«По сути, мы переделываем его для хранения цифровых данных — изображений, видео, документов — в управляемом виде в течение сотен или тысяч лет».Ожидается, что к 2020 году цифровая вселенная — все данные, содержащиеся в наших компьютерных файлах, исторических архивах, фильмах, коллекциях фотографий и растущий объем цифровой информации, собираемой предприятиями и устройствами по всему миру, — достигнет 44 триллионов гигабайт.Это десятикратное увеличение по сравнению с 2013 годом и будет представлять достаточно данных, чтобы заполнить более шести стопок компьютерных планшетов, простирающихся до Луны. Хотя не всю эту информацию нужно сохранять, мир производит данные быстрее, чем способен их хранить.

Молекулы ДНК могут хранить информацию во много миллионов раз плотнее, чем существующие технологии цифрового хранения — флэш-накопители, жесткие диски, магнитные и оптические носители. Эти системы также деградируют через несколько лет или десятилетий, в то время как ДНК может надежно сохранять информацию в течение столетий. DNA лучше всего подходит для архивных приложений, а не для случаев, когда к файлам требуется немедленный доступ.

Команда из лаборатории молекулярных информационных систем, расположенной в Электротехническом корпусе UW, в тесном сотрудничестве с Microsoft Research разрабатывает систему хранения на основе ДНК, которая, как она ожидает, сможет удовлетворить мировые потребности в архивных хранилищах.Во-первых, исследователи разработали новый подход к преобразованию длинных цепочек нулей и единиц в цифровых данных в четыре основных строительных блока последовательностей ДНК — аденин, гуанин, цитозин и тимин.«То, как вы переходите от единиц и нулей к As, G, C и Ts, действительно имеет значение, потому что, если вы используете умный подход, вы можете сделать его очень плотным и не получите много ошибок», — сказал соавтор Георг Силиг. , доцент кафедры электротехники, информатики и инженерии. «Если вы сделаете это неправильно, вы получите много ошибок».

Цифровые данные измельчаются на части и сохраняются путем синтеза огромного количества крошечных молекул ДНК, которые могут быть обезвожены или иным образом сохранены для длительного хранения.Исследователи UW и Microsoft являются одной из двух групп по всей стране, которые также продемонстрировали способность выполнять «произвольный доступ» — идентифицировать и извлекать правильные последовательности из этого большого пула случайных молекул ДНК, что является задачей, аналогичной повторной сборке одной главы. рассказа из библиотеки разорванных книг.Чтобы получить доступ к сохраненным данным позже, исследователи также кодируют эквиваленты почтовых индексов и уличных адресов в последовательности ДНК. Использование методов полимеразной цепной реакции (ПЦР), обычно используемых в молекулярной биологии, помогает им легче идентифицировать почтовые индексы, которые они ищут.

Используя методы секвенирования ДНК, исследователи могут затем «прочитать» данные и преобразовать их обратно в файл видео, изображения или документа, используя адреса для изменения порядка данных.В настоящее время самым большим препятствием для жизнеспособного хранения ДНК является стоимость и эффективность, с которыми ДНК может быть синтезирована (или произведена) и секвенирована (или считана) в больших масштабах.

Но исследователи говорят, что нет технических препятствий для достижения этих результатов при наличии правильных стимулов.Достижения в области хранения ДНК основаны на методах, впервые использованных в биотехнологической промышленности, но также включают новые знания. Подход команды к кодированию, например, заимствован из схем исправления ошибок, обычно используемых в компьютерной памяти, которые не применялись к ДНК.«Это пример того, как мы заимствуем что-то у природы — ДНК — для хранения информации.

Но мы используем то, что знаем из компьютеров — как исправить ошибки памяти — и применяем это обратно к природе», — сказал Ceze.«Этот междисциплинарный подход делает этот проект захватывающим. Мы опираемся на самые разные дисциплины, чтобы раздвинуть границы того, что можно сделать с ДНК.

И, как результат, мы создали систему хранения беспрецедентной плотности и долговечности», — сказал Карин Штраус, научный сотрудник Microsoft и аффилированного университета UW, доцент кафедры информатики и инженерии.Исследование финансировалось Microsoft Research, Национальным научным фондом и стипендией Дэвида Ноткина для выпускников.

Соавторами являются докторант Университета Вест-Индии Джеймс Борнхольт, докторант Университета Биоинженерии Рэндольф Лопес и Дуглас Кармин, партнер-архитектор Microsoft Research и аффилированный профессор компьютерных наук и инженерии Университета штата Вашингтон.