Лаборатория риса биоинженера Амины Кутуб разработала алгоритм, называемый «кластеризация потомства», который используется в больничном исследовании для определения того, какое лечение следует назначать детям с лейкемией.Подробная информация о работе опубликована в онлайн-журнале Nature Scientific Reports.Кластеризация важна из-за ее способности раскрывать информацию в сложных наборах данных, таких как медицинские записи.
Этот метод используется в биоинформатике — теме, интересующей ученых Райс, которые тесно сотрудничают с другими учреждениями Техасского медицинского центра.«Врачи, которые разрабатывают клинические испытания, должны знать, как сгруппировать пациентов, чтобы они получали наиболее подходящее лечение», — сказал Кутуб. «Во-первых, им необходимо оценить оптимальное количество кластеров в своих данных». По ее словам, чем точнее кластеры, тем более персонализированным может быть лечение.
По ее словам, будет легко разделить группы по одной точке данных, например по цвету глаз. Но при разделении людей по типам белков в кровотоке это становится труднее.«Такие данные стали преобладающими повсюду в биологии, и их хорошо иметь», — сказал Кутуб. «Мы хотим знать сотни характеристик об одном человеке. Проблема состоит в том, чтобы определить, как использовать все эти данные».
По ее словам, алгоритм Райса обеспечивает как можно более точное количество кластеров. Алгоритм извлекает характеристики пациентов из набора данных, смешивает и сопоставляет их случайным образом для создания искусственных популяций — «потомков» или потомков родительских данных. Характеристики проявляются примерно в тех же соотношениях у потомков, что и у родителей.Эти характеристики, называемые размерами, могут быть любыми: такими простыми, как цвет волос или место рождения, или такими подробными, как количество клеток крови или белки, экспрессируемые опухолевыми клетками.
Даже для небольшой популяции каждый человек может иметь сотни или даже тысячи измерений.Создавая потомство с теми же размерами функций, алгоритм Райса увеличивает размер набора данных. Благодаря этим дополнительным данным отчетливые закономерности становятся более очевидными, что позволяет алгоритму оптимизировать количество кластеров, требующих внимания врачей и ученых.Кутуб и ведущий исследователь Венди Ху, аспирантка в своей лаборатории в Rice’s BioScience Research Collaborative, сказали, что их метод так же надежен, как и современные алгоритмы оценки кластеризации, но за небольшую часть вычислительных затрат.
Они писали, что в лабораторных тестах кластеризация потомства выгодно отличалась от других популярных методов и была единственным методом, успешно обнаружившим клинически значимые группировки в наборе данных массива белков с обращенной фазой при остром миелоидном лейкозе.Кутуб сказал, что кластеризация потомства также позволяет исследователям определять идеальное количество кластеров в небольших популяциях.
Алгоритм был задействован в продолжающемся испытании с участием пациентов с лейкемией в Детской больнице Техаса. Там, по словам Кутуба, «кластеризация потомства позволила им разработать надежное клиническое испытание, даже несмотря на то, что в нем не участвовало большое количество детей.
Это означало, что им не пришлось ждать, чтобы набрать больше».По словам Кутуба, технологии сбора данных о пациентах — от сложного больничного оборудования до простых наручных мониторов состояния здоровья — быстро развиваются. Это делает ставку на инструменты, которые могут расшифровать растущие горы данных. «Десять пациентов, например, может быть немногочисленно, но для каждого могут быть сотни или тысячи измерений», — сказала она.
«Большие данные — это просто числа, но числа не имеют никакой ценности, если вы не получаете от них информацию», — сказал Ху. «Моя работа состоит в том, чтобы смотреть на эти числа и использовать вычислительные инструменты и идеи из биологии для получения новой информации. Это может помочь нам узнать больше о болезнях и придумать терапевтические решения и диагностические схемы, а также определить новые цели для лекарств».«Если вы не знаете, как обрабатывать эти данные, вы теряетесь», — сказал Кутуб. «Вы не знаете, как лучше всего сгруппировать людей или назначить им определенный режим терапии или упражнений».
По словам Кутуба, алгоритм может применяться к любому набору данных. «С таким же успехом мы могли бы использовать его для того, чтобы группа избирателей могла видеть, кому следует получать агитационные материалы от кандидата», — сказала она. «Кластеризация потомков имеет множество возможных применений».По ее словам, лаборатория планирует сделать алгоритм доступным бесплатно через свой веб-сайт.
