«Когда вы находитесь в мире данных, на пути есть камни и неровности, и вам нужно позаботиться о многих вещах, — сказал Найл Гаффни, бывший ученый космического телескопа Хаббла, который сейчас возглавляет Data Intensive. Вычислительная группа Техасского центра передовых вычислений (TACC).
Гаффни возглавил работу по созданию суперкомпьютера нового типа под названием Wrangler. Подобно старым западным ковбоям, которые приручили диких лошадей, Wrangler укрощает чудовищ больших данных, таких как вычислительные задачи, связанные с анализом тысяч файлов, которые необходимо быстро открыть, изучить и сопоставить.Wrangler заполняет пробел в суперкомпьютерных ресурсах XSEDE, среды для исследований в области экстремальных наук и инженерии, поддерживаемой Национальным научным фондом (NSF).
XSEDE — это набор передовых цифровых ресурсов, которые ученые могут легко использовать для обмена и анализа массивных наборов данных, которые сегодня создаются практически во всех областях исследований. В 2013 году NSF наградил TACC и его академические партнеры Университетом Индианы и Чикагским университетом 11,2 миллиона долларов на создание и эксплуатацию Wrangler, суперкомпьютера для обработки высокопроизводительных вычислений с интенсивным использованием данных.
Wrangler был разработан для тесного взаимодействия с суперкомпьютером Stampede, занимающим 10-е место в мире по мощности согласно списку Top500, который проводится раз в два года, и флагманом TACC Техасского университета в Остине (Юта Остин). Stampede насчитал более шести миллионов рабочих мест для открытой науки с момента его появления в сети в 2013 году.«Мы сохранили многое из того, что было хорошо в таких системах, как Stampede, — сказал Гаффни, — но добавили к ним новые вещи, такие как очень большая система хранения на флеш-накопителях, очень большая распределенная система хранения с вращающимися дисками и высокоскоростной доступ к сети.
Это позволяет люди, у которых есть проблемы с данными, которые не решались такими системами, как Stampede и Lonestar, чтобы иметь возможность решать их способами, которых они никогда не могли раньше ».Гаффни провел аналогию, что суперкомпьютеры, такие как Stampede, похожи на гоночные спортивные автомобили с фантастическими вычислительными двигателями, оптимизированными для быстрой езды на гладких, четко определенных гоночных трассах. Wrangler, с другой стороны, построен как раллийный автомобиль, чтобы быстро двигаться по грунтовым, ухабистым дорогам с грязным гравием.«Если вы едете на Ferrari по бездорожью, вы можете изменить способ подвески», — сказал Гаффни. «Вы хотите изменить способ сборки всего автомобиля, даже если в нем используются одни и те же компоненты, чтобы создать что-то подходящее для людей, выполняющих другую работу».
В основе Wrangler лежит 600 терабайт флеш-памяти, совместно используемая через соединение PCI более чем 3000 вычислительных ядер Haswell. «Все части системы могут получить доступ к одному и тому же хранилищу», — сказал Гаффни. «Они могут работать параллельно с данными, которые хранятся в этой высокоскоростной системе хранения данных, чтобы получить больший результат, которого они не смогли бы получить иначе».Этот огромный объем флеш-памяти поступает от DSSD, стартапа, основанного Энди Бехтольшеймом из компании Sun Microsystems и приобретенного в мае 2015 года EMC.
Влияние Бехтольшейма на TACC восходит к сетевому коммутатору «Magnum» Infiniband, который он руководил разработкой для выведенного из эксплуатации суперкомпьютера Ranger, предшественника Stampede.Что нового, так это то, что DSSD использовал ярлык между процессором и данными. «Связь от мозга компьютера идет напрямую к системе хранения.
Между ними нет перевода», — сказал Гаффни. «Это на самом деле позволяет людям выполнять вычисления напрямую, используя одно из самых быстрых хранилищ, какое только можно получить, без каких-либо узких мест».Ускорение конвейера анализа генов
Гаффни вспомнил, как ученые зависли с кодом под названием OrthoMCL, который прочесывает последовательности ДНК, чтобы найти общее генетическое происхождение у, казалось бы, неродственных видов. Проблема заключалась в том, что OrthoMCL выпустил базы данных безумно, как вздор.
«Он генерирует очень большую базу данных, а затем запускает внешние вычислительные программы и должен взаимодействовать с этой базой данных», — сказала биолог Ребекка Янг из Департамента интегративной биологии и Центра вычислительной биологии и биоинформатики в UT Austin. Она добавила: «Это не то, для чего были созданы Lonestar, Stampede и некоторые другие ресурсы TACC».Янг рассказала, как сначала, используя OrthoMCL с онлайн-ресурсами, она смогла выделить только 350 сопоставимых генов у 10 видов. «Когда я запускаю OrthoMCL на Wrangler, я могу получить почти 2000 генов, сопоставимых для разных видов», — сказал Янг. "Это огромное улучшение по сравнению с тем, что уже доступно.
Что мы хотим сделать с помощью OrthoMCL, так это позволить нам делать все большее количество сравнений между видами, когда мы смотрим на эти очень разные, эти очень древние виды, разделенные 450 миллионов лет эволюции ».«Мы смогли пройти все эти рабочие дела за 15–6 часов», — сказал Гаффни. «Это меняет правила игры».Гаффни добавил, что быстрое получение результатов позволяет ученым исследовать новые и более глубокие вопросы, работая с более крупными коллекциями данных и делая ранее недостижимые открытия.
Настройка энергоэффективности в зданияхКомпьютерный ученый Джошуа Нью из Национальной лаборатории Ок-Ридж (ORNL) надеется воспользоваться способностью Рэнглера обуздать большие данные. Нью — главный исследователь проекта Autotune, который создает версию программного обеспечения здания и калибрует модель с использованием более 3000 различных входных данных из таких источников, как счета за коммунальные услуги, для получения полезной информации, например, какой может быть оптимальная энергоэффективная модернизация.«У Wrangler достаточно лошадиных сил, чтобы мы могли провести несколько очень крупных исследований и получить значимые результаты за один запуск», — сказал Нью.
В настоящее время он использует суперкомпьютер Titan компании ORNL для запуска 500 000 симуляций и записи 45 ТБ данных на диск за 68 минут. Он сказал, что хочет расширить свои параметрические исследования, чтобы смоделировать все 125,1 миллиона зданий в США.«Я думаю, что Wrangler заполняет для нас определенную нишу, поскольку мы превращаем наш анализ в непрерывный рабочий процесс, в котором мы определяем, какие параметры мы хотим изменять», — сказал Нью. «Он создает матрицу выборки. Он создает входные файлы.
Он выполняет сложную вычислительную задачу по параллельному запуску всех симуляций. Он создает выходные данные. Затем мы запускаем наш искусственный интеллект и статистические методы для анализа этих данных на сервере.
Мы очень взволнованы тем, что делаем это от начала до конца как надежный рабочий процесс над Wrangler ».Когда Гаффни говорит о хранилище на Wrangler, он имеет в виду много хранилищ данных — файловую систему на основе 10 петабайт Lustre, размещенную в TACC и воспроизведенную в Университете Индианы. «Мы хотим сохранить данные», — сказал Гаффни. «Система для Wrangler была создана для того, чтобы сделать данные первоклассным гражданином среди того, что люди делают для исследований, позволяя хранить данные и курировать их, делиться ими и работать с ними.
Это основополагающие арендаторы того, что мы хотел сделать с Рэнглером ".Проливая свет на темную энергию«Данные — действительно самая большая проблема для нашего проекта», — сказал астроном UT Austin Стив Финкельштейн.
Его проект, финансируемый NSF, называется HETDEX, эксперимент с темной энергией телескопа Хобби-Эберли. Это самый крупный обзор галактик из когда-либо предпринятых. Ученые ожидают, что HETDEX нанесет на карту более миллиона галактик в трех измерениях, открывая тысячи новых галактик.
Основная цель — изучить темную энергию, загадочную силу, раздвигающую галактики.Суперкомпьютер WranglerСуперкомпьютерная система Wrangler с интенсивным использованием данных во время развертывания.«Каждую ночь, которую мы наблюдаем — а мы планируем наблюдать более или менее каждую ночь в течение как минимум трех лет — мы собираемся делать 200 ГБ данных», — сказал Финкельштейн.
Каждые шесть минут он будет измерять спектры 34 000 точек светового люка.«На Wrangler находится наш трубопровод», — сказал Финкельштейн. «Он будет там жить. По мере поступления данных у него будет небольшая процедура, которая в основном ищет новые данные, и, поскольку они поступают каждые шесть минут или около того, он будет их обрабатывать.
К концу ночи он будет на самом деле сможет собрать все данные вместе, чтобы найти новые галактики ».Человеческое происхождение похоронено в окаменелостяхДругой пример нового пользователя высокопроизводительных вычислений, которого предоставляет Wrangler, — это научная инициатива PaleoCore, финансируемая NSF. Он надеется воспользоваться быстротой Wrangler с базами данных, чтобы создать хранилище, в котором ученые смогут копаться в гео-пространственных данных обо всех окаменелостях, связанных с происхождением человека.
Это позволит объединить старые цифровые коллекции в таких форматах, как рабочие листы Excel и базы данных SQL, с новыми способами сбора данных, такими как данные GPS об ископаемых останках в реальном времени, собранные с iPhone или iPad.«Мы смотрим на большие возможности связанных открытых данных», — сказал главный исследователь PaleoCore Денн Рид.
Рид — доцент кафедры антропологии Университета штата Остин.Связанные открытые данные позволяют запросам получить смысл из взаимосвязей, казалось бы, разрозненных фрагментов данных. «Wrangler — это платформа, которая позволяет это сделать», — сказал Рид. "Это позволяет нам хранить большие объемы данных, как фотоизображений, так и спутниковых снимков и связанных с ними вещей, которые идут вместе с геопространственными данными.
Кроме того, это позволяет нам начать поиск способов эффективной связи этих данных с другими хранилищами данных. в реальном времени."Аналитика данных для наукиОбщая память Wrangler поддерживает аналитику данных в фреймворках Hadoop и Apache Spark. «На данный момент Hadoop — это модное слово во всей науке о данных», — сказал Гаффни. «У нас есть все это, и мы можем сконфигурировать систему так, чтобы она была похожа на сегодняшние поисковые системы Google в центрах обработки данных. Большая разница в том, что мы обслуживаем несколько человек одновременно, в отличие от Google. "Пользователи вводят и выводят данные из Wrangler одним из самых быстрых способов.
Wrangler подключается к Internet2, оптической сети, которая обеспечивает пропускную способность 100 гигабайт в секунду для большинства других академических учреждений по всей стране.Более того, у TACC есть инструменты и методы для параллельной передачи данных. «Это как в супермаркете», — объяснил Гаффни. «Если открыта только одна полоса, это так же быстро, как и один человек, проверяющий вас. Но если вы войдете и откроете 15 полос, вы сможете распределить этот трафик и пройти больше людей за меньшее время».Новое сообщество пользователей суперкомпьютеров
Биологи, астрономы, эксперты по энергоэффективности и палеонтологи — лишь небольшая часть нового сообщества пользователей, которое Wrangler стремится привлечь.Wrangler также имеет больше возможностей для работы в Интернете, чем это обычно бывает в высокопроизводительных вычислениях.
Веб-портал позволяет пользователям управлять системой и дает возможность использовать веб-интерфейсы, такие как VNC, RStudio и Jupyter Notebooks, для поддержки взаимодействия пользователя с системой, более похожего на настольный компьютер.«Нам нужны эти более крупные системы для науки», — сказал Гаффни. «Нам нужно больше видов систем.
И нам нужно больше видов пользователей. Именно к этому мы стремимся, создавая порталы такого типа. Я считаю, что это будет новое лицо для многих из этих систем, которые мы движемся вперед с сегодняшним днем. Намного больше веб-ориентированного, гораздо более графического, гораздо менее управляемого командной строки ».«NSF разделяет с TACC большую гордость за то, что Wrangler продолжает предоставлять ведущие в мире технические характеристики пропускной способности в качестве оперативного ресурса, доступного для открытого научного сообщества с определенными характеристиками, наиболее отвечающими требованиям перспективных исследований, ориентированных на данные», — сказал Роберт Чаддак, руководитель программы. награда NSF.
Wrangler призван стать лидером в области вычислений в ухабистом мире научных исследований с большим объемом данных. «Есть несколько отличных систем и великих исследователей, которые проводят революционную и очень важную работу с данными, чтобы изменить наш образ жизни и изменить мир», — сказал Гаффни. «Wrangler продвигает распространение этих результатов, чтобы каждый мог видеть, что происходит».
