Новый алгоритм, направленный на решение проблемы воспроизводимости науки

Однако эти операции по добыче полезных ископаемых сопряжены с риском. Исследователям бывает сложно сказать, когда они откопали крупицу истины или что можно считать золотом дураков: корреляция, которая, кажется, имеет прогностическую ценность, но на самом деле не имеет, поскольку является результатом случайной случайности.Исследовательская группа, объединяющая научные круги и промышленность, разработала новый инструмент для добычи полезных ископаемых, который может помочь отличить эти самородки. В исследовании, опубликованном в журнале Science, они изложили метод последовательной проверки гипотез на одном и том же наборе данных без ущерба для статистических гарантий того, что их выводы верны.

Существующие проверки такого рода «адаптивного анализа», когда новые гипотезы, основанные на результатах предыдущих, многократно проверяются на одних и тех же данных, могут применяться только к очень большим наборам данных. Получение достаточного количества данных для проведения таких проверок может оказаться сложным с точки зрения логистики или непомерно дорогостоящим.Метод исследователей может повысить эффективность анализа небольших наборов данных, отметив способы, которыми исследователи могут прийти к «ложному открытию», когда результат кажется статистически значимым, но не может быть воспроизведен в новых данных.Для каждой гипотезы, которая нуждается в проверке, она может выступать в качестве проверки против «переобучения», когда прогнозные тенденции применимы только к заданному набору данных и не могут быть обобщены.

Исследование проводили Синтия Дворк, выдающийся ученый Microsoft Research, Виталий Фельдман, научный сотрудник исследовательского центра IBM в Альмадене, Мориц Хардт, научный сотрудник Google, Тонианн Питасси, профессор факультета компьютерных наук Университета Торонто, Омер Рейнгольд, главный научный сотрудник Samsung Research America, и Аарон Рот, доцент кафедры компьютерных и информационных наук Школы инженерии и прикладных наук Пенсильванского университета.Адаптивный анализ, при котором несколько тестов для набора данных объединяются для повышения их предсказательной силы, становится все более распространенной техникой. Он также обладает способностью обманывать.

Представьте, что однажды утром вы получили анонимный совет по электронной почте о том, что цена определенной акции вырастет к концу дня. На заключительном звонке предсказание информатора подтверждается, и делается другое предсказание. После недели непрерывного успеха типстер начинает взимать плату за свои проверенные навыки прогнозирования.Многие были бы склонны принять предложение типстера и попасться на эту аферу.

Без ведома своих жертв, типстер начал с рассылки случайных предсказаний тысячам людей и повторил процесс только с теми, которые оказались верными случайно. Хотя к концу недели может остаться лишь несколько человек, каждый видит то, что кажется мощной предсказательной корреляцией, которая на самом деле представляет собой не более чем серию удачных подбрасываний монеты.Точно так же «адаптивная» проверка множества гипотез на одних и тех же данных, каждая новая зависит от последней, может сделать случайный шум похожим на сигнал: так называемое ложное открытие. Поскольку корреляции этих ложных открытий идиосинкразичны для набора данных, в котором они были созданы, они не могут быть воспроизведены, когда другие исследователи пытаются воспроизвести их с новыми данными.

Традиционный способ проверить, что предполагаемый сигнал не является просто случайным шумом, — это использовать «задержку».

Это набор данных, который хранится отдельно, пока большая часть данных анализируется. Гипотезы о корреляциях между элементами в массиве данных могут быть проверены на задержке; реальные отношения будут существовать в обоих наборах, в то время как ложные не могут быть воспроизведены.

Проблема с использованием отклонений таким образом заключается в том, что по своей природе они могут быть повторно использованы только в том случае, если каждая гипотеза независима друг от друга. Даже несколько дополнительных гипотез, связанных друг с другом, могут быстро привести к ложному открытию.

С этой целью исследователи разработали инструмент, известный как «многоразовый упор». Вместо того, чтобы напрямую проверять гипотезу на удерживающем наборе, ученые запрашивали ее с помощью «дифференциально-частного» алгоритма.

Слово «другое» в его названии указывает на гарантию, которую дает дифференциально частный алгоритм. Его анализ должен оставаться функционально идентичным при применении к двум разным наборам данных: один с данными, а другой без данных от любого отдельного человека.

Это означает, что любые выводы, которые будут основываться на идиосинкразических выбросах данного набора, исчезнут при взгляде на данные через дифференциально частную призму.Чтобы проверить свой алгоритм, исследователи провели адаптивный анализ данных на наборе, настроенном так, чтобы он не содержал ничего, кроме случайного шума. Набор был абстрактным, но его можно было рассматривать как тестирующий 20 000 пациентов по 10 000 переменных, таких как варианты в их геномах, для тех, которые позволяли прогнозировать рак легких.Хотя по замыслу ни одна из переменных в наборе не позволяла предсказать рак, повторное использование удерживаемого набора стандартным способом показало, что 500 из них обладают значительной прогностической силой.

Однако выполнение того же анализа с помощью повторно используемого инструмента удержания исследователей правильно показало отсутствие значимых корреляций.Эксперимент со вторым подстроенным набором данных показал более реалистичный сценарий. Там некоторые из переменных действительно обладали предсказательной силой, но традиционное использование удерживающих факторов создало комбинацию переменных с сильно завышенной силой. Инструмент многоразового удержания правильно определил 20, которые имели истинную статистическую значимость.

Помимо указания на опасность случайного переобучения, алгоритм многоразового удержания может предупреждать пользователей, когда они исчерпывают достоверность набора данных. Это красный флаг для так называемого «p-hacking», или намеренного обыгрывания данных, чтобы получить доступный для публикации уровень значимости.

Реализация многоразового алгоритма удержания позволит ученым получать более убедительные и обобщаемые результаты на основе меньших объемов данных.