Первый полный бактериальный геном, Haemophilus influenzae, появился в 1995 году, и сегодня общедоступная база данных GenBank содержит более 27000 прокариотических и 1600 эукариотических геномов. Подавляющее большинство из них представляют собой черновики геномов, которые содержат пробелы в своих последовательностях, и исследователи часто используют эти черновые последовательности для будущих анализов.Каждый проект по секвенированию генома начинается с источника ДНК, который варьируется в зависимости от вида.
Для животных кровь является обычным источником, в то время как для более мелких организмов, таких как насекомые, может потребоваться весь организм или популяция организмов, чтобы получить достаточно ДНК для секвенирования. В процессе выделения и секвенирования ДНК остается вероятность заражения.
Вычислительные фильтры, применяемые к необработанным показаниям секвенирования, обычно эффективны при удалении обычных лабораторных загрязнителей, таких как кишечная палочка, но другие загрязнители может быть труднее идентифицировать.В новом исследовании, опубликованном в PeerJ, авторы из Университета Джона Хопкинса обнаружили заражающие бактериальные и вирусные последовательности в «черновых» сборках геномов животных и растений, которые были депонированы в GenBank.
Это может вызвать особые проблемы для быстро развивающейся области анализа микробиома, когда последовательности, помеченные как животные по происхождению, на самом деле оказываются микробными.В еще более удивительном открытии авторы обнаружили присутствие ДНК коровы и овцы в предположительно законченном геноме патогенной бактерии Neisseria gonorrhoeae. Хотя бактерия была депонирована в GenBank как законченный геном, очевидно, что это была черновая версия генома, представленная как законченная, с ошибочной ДНК, вставленной в пяти местах.
Если принять за чистую монету, эти данные могут показаться поразительным случаем латерального переноса генов, но правильное объяснение кажется более приземленным.Эти результаты подчеркивают важность тщательного скрининга данных о последовательностях ДНК как во время публикации, так и, в некоторых случаях, в течение многих лет после публикации.
