Дорожная карта по борьбе с кризисом воспроизводимости: отсутствие аналитических навыков означает, что научные результаты невозможно воспроизвести или воспроизвести

«Подобно тому, как эпидемиолог Джон Сноу помог положить конец эпидемии холеры в Лондоне, убедив чиновников вынуть рукоятку инфицированного водяного насоса, у нас есть возможность бороться с кризисом научной воспроизводимости в его источнике», — написал Пэн, сотрудник профессор биостатистики Школы общественного здравоохранения Блумберга Джонса Хопкинса.В своей статье под названием «Кризис воспроизводимости в науке», опубликованной в июньском выпуске журнала Significance, ориентированного на статистику и ориентированного на широкую публику, Пэн объясняет этот кризис к резкому увеличению объема данных, доступных исследователям, и их сравнительному отсутствию аналитических навыков, необходимых для поиска смысла в данных.

«Данные следуют за нами повсюду, и их анализ стал важным для принятия любых решений. Тем не менее, хотя наша способность генерировать данные резко выросла, наша способность понимать их развивалась не такими темпами», — написал он.Этот недостаток аналитики привел к некоторым значительным «общественным недостаткам воспроизводимости», как описывает их Пэн, в целом ряде научных дисциплин, включая геномику рака, клиническую медицину и экономику.

Возможно, самым последним печально известным примером является проект исследования рака в Университете Дьюка в 2006 году, в котором исследователи опубликовали статью, в которой утверждалось, что они построили алгоритм, использующий данные геномного микрочипа, который предсказывал, какие больные раком ответят на химиотерапию. Последующая попытка воспроизвести результаты обнаружила болото плохо проведенного анализа данных с ошибками, варьирующимися от тривиальных и странных до разрушительных. Оригинальное исследование было отозвано Nature Medicine в 2011 году.

«Общей чертой каждого из этих публичных недостатков было низкое или сомнительное качество исходного анализа. Сделанные ошибки показали отсутствие суждений, обучения и контроля качества», — написал Пэн.Пэн сказал, что для повышения качества анализа данных в науке заинтересованным сторонам необходимо выйти за рамки призыва к воспроизводимости и увеличить количество обученных аналитиков данных в научном сообществе и определить статистическое программное обеспечение и инструменты, которые, как доказано, улучшают воспроизводимость и воспроизводимость исследований. «Эти последние элементы должны быть умеренно устойчивыми к ошибкам пользователя», — отметил Пэн.«Если бы мы могли предотвратить проведение проблемного анализа данных, мы могли бы существенно снизить нагрузку на сообщество [экспертной оценки], связанной с необходимостью оценивать все более неоднородную и сложную совокупность исследований и результатов исследований», — заявил Пэн.

К сожалению, большинство ученых проходят базовую или умеренную подготовку в области анализа данных, что создает потенциал для создания людей, обладающих достаточными навыками для анализа данных, но не обладающих достаточными знаниями для предотвращения ошибок в данных.«Чтобы повысить глобальную надежность анализа научных данных, мы должны использовать двусторонний подход и объединить широкомасштабные образовательные усилия с определением стратегий анализа данных, которые могут быть воспроизведены и воспроизведены в руках базовых или промежуточных аналитиков данных», — пояснил Пэн. .Пэн сказал, что фундаментальным компонентом расширения образования в области науки о данных является выполнение эмпирических исследований для определения статистических методов, планов анализа и программного обеспечения, которые приводят к повышению воспроизводимости и воспроизводимости учеными.

«Мы называем этот подход« анализом данных, основанным на фактах », — пояснил Пэн. "Подобно тому, как доказательная медицина применяет научный метод к практике медицины, основанный на фактах анализ данных применяет научный метод к практике анализа данных. Сочетание массового образования с анализом данных, основанным на фактических данных, может позволить нам быстро проверить методы анализа данных среди населения, наиболее подверженного риску ошибок анализа данных ».