Ускорение исследований рака с помощью глубокого обучения

Чтобы лучше понять это заболевание и бороться с ним, медицинские исследователи полагаются на программы регистрации рака — национальную сеть организаций, которые систематически собирают демографическую и клиническую информацию, связанную с диагностикой, лечением и историей заболеваемости раком в Соединенных Штатах. Усилия по надзору, координируемые Национальным институтом рака (NCI) и Центрами по контролю и профилактике заболеваний, позволяют исследователям и клиницистам отслеживать случаи рака на национальном, государственном и местном уровнях.

Многие из этих данных взяты из электронных текстовых клинических отчетов, которые необходимо вручную обработать — процесс, требующий больших затрат времени, — прежде чем его можно будет использовать в исследованиях. Например, отчеты о онкологической патологии, текстовые документы, подробно описывающие раковые ткани, должны быть индивидуально прочитаны и аннотированы экспертами, прежде чем стать частью реестра рака. Ежегодно выпускаются миллионы новых отчетов, и информационная нагрузка продолжает расти.

«Ручная модель не масштабируется», — сказала Джорджия Турасси, директор Института медицинских данных Окриджской национальной лаборатории Министерства энергетики США (ORNL). «Нам необходимо разработать новые инструменты, которые могут автоматизировать процесс извлечения информации и по-настоящему модернизировать наблюдение за раком в Соединенных Штатах».С 2014 года Турасси возглавляет команду, занимающуюся созданием программного обеспечения, которое может быстро идентифицировать ценную информацию в отчетах о раке, способность, которая не только сэкономит время и рабочие часы, но и потенциально откроет упущенные возможности в исследованиях рака. После экспериментов с обычным программным обеспечением для обработки естественного языка последний прогресс команды проявился благодаря глубокому обучению, технике машинного обучения, которая использует алгоритмы, большие данные и вычислительную мощность графических процессоров для имитации человеческого обучения и интеллекта.Используя суперкомпьютер Titan в Oak Ridge Leadership Computing Facility, центре науки Министерства энергетики США, расположенном в ORNL, команда Турасси применила глубокое обучение для извлечения полезной информации из отчетов о онкологической патологии, что является основополагающим элементом наблюдения за раком.

Работая с небольшими наборами данных, команда получила предварительные результаты, которые демонстрируют потенциал глубокого обучения для наблюдения за раком.Продолжающаяся разработка и совершенствование автоматизированных инструментов обработки данных, среди целей, обозначенных в инициативе Белого дома по борьбе с раком, позволят медицинским исследователям и политикам получить беспрецедентное представление о онкологической популяции в США на уровне детализации, который обычно бывает только у пациентов клинических испытаний. менее 5 процентов от общей популяции раковых заболеваний.

«Сегодня мы принимаем решения об эффективности лечения на основе очень небольшого процента больных раком, которые могут не быть репрезентативными для всей популяции пациентов», — сказал Турасси. «Наша работа показывает потенциал глубокого обучения для создания ресурсов, которые могут фиксировать эффективность лечения рака и диагностических процедур и дать раку более глубокое понимание того, как они работают в реальной жизни».Красота черного ящика

Создание программного обеспечения, которое может понимать не только значение слов, но и контекстные отношения между ними, — непростая задача. Люди развивают эти навыки в течение многих лет непрерывного взаимодействия и обучения.

Для конкретных задач глубокое обучение сокращает этот процесс до нескольких часов.Как правило, это построение контекста достигается путем обучения нейронной сети, сети взвешенных вычислений, предназначенных для выработки обоснованных предположений о том, как правильно выполнять задачи, такие как идентификация изображения или обработка словесной команды.

Данные, поступающие в нейронную сеть, называемые входами, и обратная связь по выбору дают программному обеспечению основу для принятия решений на основе новых данных. Этот алгоритмический процесс принятия решений в значительной степени непонятен программисту, он похож на учителя, который мало знает о восприятии урока учениками.

«При глубоком обучении вы просто вставляете документ и говорите:« Разберись », — сказал Турасси. «Это больше похоже на черный ящик, но в этом вся прелесть. Мы не налагаем собственных ограничений».Графические процессоры, такие как в Titan, могут ускорить этот процесс обучения, быстро выполняя множество вычислений глубокого обучения одновременно.

В двух недавних исследованиях команда Турасси использовала ускорители для настройки нескольких алгоритмов, сравнивая результаты с более традиционными методами. Используя набор данных, состоящий из 1976 отчетов о патологии, предоставленных программой NCI по надзору, эпидемиологии и конечным результатам (SEER), команда Турасси обучила алгоритм глубокого обучения для выполнения двух разных, но тесно связанных задач по извлечению информации. В первой задаче алгоритм сканировал каждый отчет, чтобы определить первичное местоположение рака.

Во второй задаче алгоритм определил латеральность очага рака — или на какой стороне тела он находился.Создав нейронную сеть, предназначенную для использования связанной информации, совместно используемой этими двумя задачами, механизм, известный как многозадачное обучение, команда обнаружила, что алгоритм работает значительно лучше, чем конкурирующие методы.«Интуитивно это имеет смысл, потому что выполнение более сложной задачи — это когда изучение контекста связанных задач становится полезным», — сказал Турасси. «Люди могут обучаться этому типу, потому что мы понимаем контекстные отношения между словами.

Это то, что мы пытаемся реализовать с помощью глубокого обучения».Другое исследование, проведенное командой Турасси, использовало отчеты 946 SEER о раке груди и легких для решения еще более сложной задачи: использование глубокого обучения для сопоставления происхождения рака с соответствующим топологическим кодом, классификация, которая даже более конкретна, чем первичная локализация рака или латеральность, с 12 вариантами ответов.Команда решила эту проблему, построив сверточную нейронную сеть, метод глубокого обучения, традиционно используемый для распознавания изображений, и заполнив ее языком из различных источников.

Ввод текста варьировался от общего (например, результаты поиска в Google) до предметного (например, медицинская литература) и узкоспециализированного (например, отчеты о онкологической патологии). Затем алгоритм взял эти входные данные и создал математическую модель, которая установила связи между словами, включая слова, общие для несвязанных текстов.

Сравнивая этот подход с более традиционными классификаторами, такими как модель векторного пространства, команда отметила постепенное улучшение производительности по мере того, как сеть поглощала больше текста, специфичного для рака. Эти предварительные результаты помогут команде Tourassi расширить масштабы алгоритмов глубокого обучения для работы с большими наборами данных и перейти к меньшему контролю, что означает, что алгоритмы будут принимать обоснованные решения с меньшим вмешательством человека.

В 2016 году команда Турасси узнала, что ее проект по эпиднадзору за раком будет разработан в рамках проекта Министерства энергетики США Exascale Computing Project, инициативы по разработке вычислительной экосистемы, которая может поддерживать экзадачный суперкомпьютер — машину, способную выполнять миллиард миллиардов вычислений в секунду. Хотя команда добилась значительного прогресса в использовании глубокого обучения для исследования рака, самые большие успехи еще впереди.

«Если сосредоточиться только на клиническом тексте, ценность будет огромной», — сказал Турасси.