Краудсорсинг для научных открытий: исследователи находят новые способы анализа данных для обнаружения лекарств и целей.

Репозитории Omics, которые представляют собой виртуальные хранилища необработанных данных об экспрессии генов, содержат тысячи исследований. Такое обилие данных открывает возможности для интегративного анализа, который может раскрыть новые знания, которые были упущены или были невозможны при первоначальной публикации данных. Например, хотя набор данных из данного исследования мог использоваться для конкретной опубликованной статьи, этот же набор данных может содержать доказательства, ценность которых может быть реализована только в сочетании с данными из другого исследования.

Тогда может стать очевидным, что лекарство можно использовать для лечения другого заболевания. Несколько компьютеризированных поисковых систем были разработаны, чтобы прочесать эти данные. Однако для того, чтобы эти инструменты были эффективными, они требуют трудоемкого и трудоемкого вмешательства человека для обеспечения точности.

Вот где может пригодиться краудсорсинг. Для этого проекта 70 добровольцев были набраны с помощью массового открытого онлайн-курса (MOOC), который преподавал на платформе Coursera MOOC Ави Мааян, доктор философии, профессор фармакологических наук и директор Центра биоинформатики на горе Синай.

Медицинская школа Икана на горе Синай. Студентов-добровольцев сначала попросили идентифицировать соответствующие исследования в базе данных NCBI GEO — в данном случае исследования, в которых к клеткам млекопитающих применялись возмущения, связанные с одним геном или одним лекарством, или в которых сравнивались нормальные ткани с пораженными.

После того, как исследования были отобраны, добровольцы извлекли из них метаданные, а затем вычислили дифференциальное выражение, используя специально разработанное расширение браузера Chrome, разработанное исследователями Mount Sinai.В ходе этого процесса извлекалась информация о сигнатурах генов — наблюдениях за группами генов, комбинированная экспрессия которых связана с определенным состоянием или действием лекарства, — которые хранились в новой базе данных. Затем доктор Мааян и его команда использовали базу данных для визуализации и анализа подписей на веб-портале, известном как Crowd Extracted Expression of Differential Signatures, или CREEDS, который был разработан лабораторией Мааяна на горе Синай. В ходе проекта было представлено более 3100 нарушений одного гена из более чем 2300 исследований, а также 1238 нарушений, связанных с одним лекарством, из почти 450 исследований.

«В этих базах данных хранится невероятное количество данных, но большая часть из них еще не полностью исследована», — сказал д-р Мааян. «Профилирование и извлечение сигнатур экспрессии генов занимает много времени и трудозатратно, и их нельзя полностью автоматизировать. Используя добровольцев, так называемых« граждан-ученых », мы смогли обеспечить гораздо больший масштаб человеческого обучения и повышения качества. контроля, чем мы могли бы осуществить в одиночку. Объединив человеческое взаимодействие с автоматизированными программами, мы смогли бы обработать гораздо больше данных, чем это было бы возможно в ином случае ».

В конечном итоге, извлеченные вручную сигнатуры использовались в качестве обучающего набора, чтобы помочь программе, использующей машинное обучение, обрабатывать все данные, доступные в настоящее время в GEO, для добавления дополнительных сигнатур лекарств, генов и болезней в базу данных CREEDS. Хотя исследователи обычно обнаруживают, что качество автоматически сгенерированных сигнатур не на должном уровне по сравнению с сигнатурами, созданными людьми, такие краудсорсинговые усилия могут быть интегрированы с машинным обучением для уточнения данных.

Случаи, которые компьютерные программы находят более сложными, могут быть представлены с предложениями кураторам, работающим с краудсорсингом; это позволяет получать данные более высокого качества, сокращая при этом усилия, требуемые от волонтера.«Мы благодарны волонтерам, которые помогли продемонстрировать, что граждане-ученые, работая с исследователями для достижения общей цели, могут достигать замечательных результатов, которые имеют реальное влияние», — сказал д-р Мааян. «Такие коллективные усилия могут помочь нам открыть новые лекарства, новые причины болезней и новые научные знания».