Но по мере того, как объем «больших данных», генерируемых и распространяемых в научном сообществе, продолжает расти в геометрической прогрессии, возникают новые проблемы. Где все эти данные должны храниться и передаваться рентабельным способом?
Как его можно наиболее эффективно передавать по современным сетям передачи данных? Как исследователи будут взаимодействовать с данными и глобальной вычислительной инфраструктурой?Команда новаторских ученых и информационных технологов в Clemson усердно работает, чтобы ответить на эти вопросы, изучая способы упрощения совместной работы и повышения эффективности.«Я использую наборы геномных данных, чтобы найти взаимодействия генов у различных видов сельскохозяйственных культур», — сказал Алекс Фелтус, доцент кафедры генетики и биохимии в Клемсоне. «Моя цель — продвинуть циклы развития сельскохозяйственных культур, чтобы они росли достаточно быстро, чтобы удовлетворить спрос перед лицом новых экономических реалий, навязанных изменением климата.
В процессе этого я также стал специалистом по большим данным, которому необходимо передать данные по сетям и обрабатывают их очень быстро с помощью суперкомпьютеров, таких как кластер Palmetto в Клемсоне. наилучшая возможная работа ".Большие данные, определяемые как наборы данных, слишком большие и сложные для обработки традиционными компьютерами, добываются новыми и инновационными способами компьютерного анализа закономерностей, тенденций и ассоциаций в области геномики и широкого круга других дисциплин.
Но значительные задержки в передаче больших данных могут заставить ученых отказаться от проекта еще до того, как он начнется.«Сегодня существует множество доступных технологий, которые могут решить проблему передачи больших данных», — сказал Куанг-Чинг «KC» Ван, доцент кафедры электротехники и вычислительной техники, а также директор по сетевым технологиям компании Clemson. «Это захватывающее время для исследователей в области геномики, чтобы значительно изменить свои рабочие процессы, используя передовые сетевые и вычислительные технологии. Но для того, чтобы все эти технологии работали вместе должным образом, требуется сложная инженерия. ИТ-ресурсы, в том числе ИТ-инженеры и компьютерные ученые.
Такой вид междисциплинарного сотрудничества отражает национальные исследовательские тенденции ».В своей недавно опубликованной статье под названием «Расширяющаяся пропасть между генерацией и потреблением геномных данных: практическое руководство по технологии передачи больших данных» Фелтус, Ван и шесть других соавторов из Клемсона, Университета Юты и Национального центра биотехнологической информации обсудили тщательное планирование и проектирование, необходимые для перемещения больших данных и управления ими со скоростью, необходимой для высокопроизводительной науки. При правильном исполнении сложные сети передачи данных, такие как Advanced Layer2 Service от Internet2, а также включение передовых приложений и программного обеспечения могут на порядки повысить эффективность передачи.«Университеты и другие исследовательские организации могут потратить много денег на создание суперкомпьютеров и действительно быстрых сетей», — сказал Фелтус. «Но с исследовательскими вычислительными системами существует пропасть между« технологами »и« исследователями ». Мы пытаемся объединить эти две группы экспертов и научиться говорить на одном диалекте.
Цель нашей статьи — познакомить ученых-исследователей с некоторыми из этих информационных технологий, чтобы они могли лучше увидеть общую картину ».Скоро информация, генерируемая высокопроизводительным секвенированием ДНК, скоро будет измеряться в эксабайтах, что равно одному квинтиллиону байтов или одному миллиарду гигабайт. Байт — это единица, которую компьютеры используют для представления буквы, числа или символа.
Проще говоря, это гора информации, настолько необъятная, что Эверест выглядит как муха слона.«Технологический ландшафт сейчас действительно меняется, — сказал Ван. «Новые технологии развиваются так быстро, что даже ИТ-специалисты изо всех сил стараются не отставать. Поэтому, чтобы быстро сделать эти новые и постоянно развивающиеся ресурсы доступными для более широкого круга различных сообществ, ИТ-специалисты все больше и больше работают напрямую с исследователями предметной области. вместо того, чтобы оставаться в тени, ожидая, когда к ним обратятся, когда это необходимо.
Между тем, ученые обнаруживают, что ИТ-персонал, который является наиболее непредубежденным и готовым к мозговому штурму, становится неоценимой частью исследовательского процесса ».Национальный научный фонд и другие высокопоставленные организации сделали большие данные одним из приоритетов и побуждают ученых глубже изучить связанные с ними проблемы.
В августе 2014 года Фелтус, Ван и пять когорт получили грант NSF в размере 1,485 миллиона долларов на продвижение исследований по анализу данных следующего поколения и их совместному использованию. Также в августе 2014 года Фелтус и Уолт Лигон из Клемсона получили грант NSF на сумму 300 000 долларов США от университетов штата Луизиана и Индиана для изучения совместных исследований в области вычислительной науки.
А в сентябре 2012 года Ван и Джеймс Боттум из Клемсона получили грант NSF в размере 991 000 долларов на развертывание высокоскоростной университетской сети нового поколения для развития киберинфраструктуры.«NSF все больше демонстрирует поддержку такого рода исследовательского сотрудничества для многих различных проблемных областей», — сказал Ван. «Спонсирующие организации говорят, что мы действительно должны объединить людей, занимающихся технологиями, и людей, занимающихся исследованиями в предметной области, и именно этим мы и занимаемся здесь, в Clemson».Например, Feltus продается на основе концепции. Он говорит, что работа с участниками гранта Ванга CC-NIE уже открыла множество новых исследовательских возможностей.
«За свою карьеру я изучал несколько организмов», — сказал Фелтус. «Но поскольку теперь у меня гораздо лучший доступ к данным, я нахожу способы изучить гораздо больше из них. Я вижу, что перед моими глазами открываются фантастические возможности. Когда вы можете дать ученым инструменты, которых у них никогда не было раньше это неизбежно приведет к открытиям, которые изменят мир способами, которые когда-то были немыслимы ».

