
Отношения между генами и конкретными признаками более сложны, чем простые взаимно однозначные отношения между генами и заболеваниями. Полногеномные ассоциативные исследования (GWAS) показывают, что многие генетические факторы влияют на любой конкретный признак, но ученые только начинают изучать, как, в частности, генетические вариации влияют на здоровье и болезнь. Две основные статистические задачи нахождения этих связей включают анализ ассоциаций между множеством различных генетических вариантов и множественных признаков и наилучшее использование данных больших когорт, включающих сотни тысяч людей.
«Очень сложно идентифицировать генетические варианты, лежащие в основе фенотипов или признаков, и обычно мы делаем это, анализируя каждый фенотип и каждый вариант один за другим», — объясняет Оливер Стегл, руководитель исследовательской группы EMBL-EBI. "Но простые модели, которые мы используем для этого, слишком упрощены, чтобы раскрыть сложные зависимости между наборами генетических вариантов и фенотипами болезней."
Сложные модели, позволяющие взглянуть на совместное действие множества различных вариантов, до сих пор требовали такого количества вычислений, что для выполнения одного сложного запроса потребовался бы год.
«Прорыв здесь в том, что мы сделали возможным выполнение интегративного анализа, включающего множество вариантов и фенотипов, с той же скоростью, что и современные подходы», — говорит Оливер.
Исследователи протестировали свой алгоритм на данных двух исследований из общедоступных репозиториев и сравнили результаты с существующими современными инструментами.
Их исследование четырех характеристик, связанных с липидами (уровни холестерина ЛПНП и ЛПВП, С-реактивный белок, триглицериды), доказало, что новый метод значительно быстрее и может объяснить большую часть этих признаков с точки зрения генетики, которая ими движет.
«Мы хотели взглянуть на эти вопросы с обеих сторон», — говорит Оливер. «С одной стороны, мы хотим изучить все варианты одного гена, которые могут участвовать в регуляции одного конкретного липидного признака.
С другой стороны, мы хотим посмотреть на комбинированный эффект на больших наборах уровней липидов, например, чтобы узнать что-то о регуляции липидов в целом."
Используя новый метод, исследователи GWAS могут исследовать сразу несколько вариантов гена, сравнивая их с несколькими родственными фенотипами. Это значительно упрощает определение того, какие гены — или места в генах — участвуют в определенной функции, например регуляции липидов.
«Что важно в этой работе, так это то, что она повышает статистическую мощность и предоставляет инструменты, необходимые людям для анализа нескольких характеристик в очень больших когортах», — говорит Оливер. "Наш алгоритм может быть использован для изучения до полумиллиона человек — до сих пор это было невозможно."
"В настоящее время люди используют либо несколько вариантов методов для одного фентотипа, либо несколько методов фенотипа, но одновременно рассматривают только один вариант.
Новая схема Оливера — настоящий прорыв, потому что она позволяет вам делать и то, и другое одновременно, и ее можно масштабировать для использования в очень больших когортах, которые мы начинаем видеть в таких инициативах, как UK BioBank », — говорит Эван Бирни, заместитель директора EMBL. -EBI.
Новый алгоритм предоставляет столь необходимые для геномики методы, что делает крупномасштабный комплексный анализ управляемой и практичной задачей.
"Наш метод, который мы называем mSet, обеспечивает принципиальный подход к тестированию статистических взаимосвязей между несколькими генетическими вариантами и группами признаков. Эти методы помогут исследователям определить, какие конкретные аспекты нашей биологии передаются по наследству, и откроют новые взгляды на генетику, лежащую в основе наших бесчисленных биологических процессов."
