
Представьте на секунду, что вы работаете с исследованием ожирения и что у вас есть триллион бит данных, связанных с ожирением, которые хранятся на сервере: что едят люди с избыточным весом? Как они спят? В какое время дня они едят?
Вы подозреваете, что образ жизни пациентов может влиять на их вес, и можете попросить свой компьютер сравнить изменение веса и количество съеденных бутербродов с сыром, чтобы увидеть, есть ли ссылка.
Тогда вы можете попросить другое сравнение. И еще один. И поэтому вы можете продолжать очень долго и собирать широкий спектр сравнений для своего исследования.
Или вы можете подходить к своим данным не только намного быстрее, но и обнаруживать ссылки, о которых вы, возможно, даже не задумывались.
Тогда вы не только сможете проверить свои собственные подозрения относительно веса и образа жизни — возможно, вы обнаружите совершенно неожиданные связи, например, что худеющие пациенты чаще едят гауда, чем бутерброды с чеддером.
Ищем скрытые закономерности
В этом суть кластеризации: поиск скрытых закономерностей, которые мы не можем увидеть сами; попросить компьютер сгруппировать объекты, которые имеют общие черты вместе, в группы.
В принципе, это могут быть любые данные: пациенты, белки или, может быть, планеты в далеких галактиках.
В SDU доцент и руководитель исследовательской группы «Практическая информатика и биоинформатика» Ричард Роттгер и его коллеги из Департамента математики и информатики используют кластеризацию, например, для поиска регуляторных сетей в патогенных организмах, позволяющих фундаментальное понимание этих организмов без опасная и дорогостоящая потребность в лабораторных исследованиях.
Но кластеризация — это сложный способ работы — даже для компьютерного ученого и независимо от того факта, что кластеризация — давняя проблема в информатике и одна из самых фундаментальных процедур анализа данных:
Кластеризация должна быть легкой для всех ученых, а не только для компьютерных специалистов
«Сегодня существуют сотни сопоставимых, но разных инструментов кластеризации; но каждый из них требует очень специфических настроек и часто глубокого понимания лежащего в основе алгоритма. Нет обзора того, что есть, что нужно использовать, и нет объективного сравнения доступных возможностей », — объясняет Ричард Роттгер.
Поэтому он и его коллеги, к.D. студент Кристиан Виви и доцент Ян Баумбах создали инструмент, который может предоставить объективный обзор всех доступных инструментов кластера, так что исследователи получают беспристрастный, объективный обзор и предложения о том, какой инструмент использовать, с какими параметрами и в каких условиях. «Теперь весь процесс значительно ускорен и стал более объективным», — говорит Роттгер.
Инструмент называется ClustEval и описан в журнале Nature Methods.

