Обычно организация уже владеет всеми данными, которые она хочет поместить в базу данных. Но написание сложных запросов на SQL или другом языке сценариев баз данных для извлечения данных из множества разных источников; фильтровать, сортировать, комбинировать и иным образом манипулировать им; и чтобы отобразить его в удобном для чтения формате, требуется опыт, которым обладают немногие организации.Новое программное обеспечение от исследователей из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института может значительно упростить работу с базами данных для непрофессионалов. Главный экран программы выглядит как электронная таблица, но он позволяет пользователям создавать собственные запросы к базе данных и отчеты, комбинируя функции, знакомые любому пользователю электронных таблиц.
Простые раскрывающиеся меню позволяют пользователю загружать данные в инструмент из нескольких источников. Затем пользователь может сортировать и фильтровать данные, рекомбинировать их с помощью алгебраических функций и скрывать ненужные столбцы и строки, а инструмент автоматически сгенерирует соответствующие запросы к базе данных.Исследователи также провели исследование удобства использования, которое предполагает, что даже в виде прототипа их инструмент может быть проще в использовании, чем существующие коммерческие системы баз данных, которые представляют собой тысячи, если не десятки тысяч, часов работы программиста.
«Организации тратят около 35 миллиардов долларов в год на реляционные базы данных», — говорит Эйрик Бакке, аспирант Массачусетского технологического института в области электротехники и информатики, который руководил разработкой нового инструмента. «Они предоставляют программное обеспечение для хранения данных и выполнения эффективных вычислений на основе данных, но они не предоставляют пользовательский интерфейс. Итак, что неизбежно в конечном итоге происходит, когда у вас есть что-то чрезвычайно специфичное для отрасли, так это то, что вам нужно нанять программиста, который тратит около года на создание пользовательского интерфейса для вашего конкретного домена ".знакомое лицоИнструмент Бакке, который он разработал с помощью своего научного руководителя, профессора электротехники Массачусетского технологического института Дэвида Каргера, может позволить организациям приступить к работе с новой базой данных, не дожидаясь появления пользовательского интерфейса.
Бакке и Каргер представили инструмент на Международной конференции по управлению данными Ассоциации вычислительной техники.Главное раскрывающееся меню инструмента содержит 17 пунктов, большинство из которых, такие как «скрыть», «отсортировать», «фильтровать» и «удалить», будут знакомы пользователям электронных таблиц.
В документе конференции Бакке и Каргер доказывают, что этих, казалось бы, простых функций достаточно для построения любого запроса к базе данных, возможного в SQL-92, который является ядром версии SQL, преподаваемой в большинстве классов баз данных.Некоторые запросы к базе данных просты: например, компании может потребоваться распечатка имен и номеров телефонов всех своих клиентов. Но также может потребоваться распечатка имен и номеров телефонов только тех клиентов с данным почтовым индексом, чьи общие покупки превысили некоторую пороговую сумму за определенный период времени.
Если каждая покупка имеет свою собственную запись в базе данных, запрос должен включать код для суммирования итогов покупок и сравнения их с пороговым количеством.Что еще более усложняет, так это то, что база данных обычно хранит связанные данные в разных таблицах.
В демонстрационных целях Бакке загрузил в свою систему несколько существующих баз данных. Одна из них, база данных, используемая в Массачусетском технологическом институте для отслеживания исследовательских грантов, содержит 35 отдельных таблиц; другой, который записывает всю информацию в каталог университетских курсов, имеет 15.Точно так же компания может хранить имена клиентов и контактную информацию в одной таблице, списки их заказов на покупку в другой, а элементы, составляющие каждый заказ на покупку, в третьей.
Относительно простой запрос, который запрашивает номера телефонов всех, кто купил определенный продукт в определенном диапазоне дат, может потребовать данных отслеживания во всех трех таблицах.
Инструмент Бакке и Каргера позволяет пользователю извлекать отдельные столбцы из любой таблицы — например, имя и номер телефона из первой, заказы на покупку и даты из второй и продукты из третьей. (Инструмент автоматически сгруппирует продукты, связанные с каждым заказом на покупку, в единую «ячейку» электронной таблицы.)Функция фильтрации, аналогичная той, что есть в большинстве программ для работы с электронными таблицами, может ограничить диапазон дат и ограничить результаты теми, которые включают конкретный продукт. Затем пользователь может скрыть ненужные столбцы, и отчет будет готов.Практический подход
В предыдущих академических проектах изучались методы построения запросов к базе данных с использованием редактируемых блок-схем или виртуальных кнопок, которые можно соединять вместе. Но инструмент Бакке и Каргера делает возможным то, что в информатике известно как «прямое манипулирование» данными.«Это действительно возвращает нас к нашей физической природе, что нам очень нравится идея, что если я что-то возьму и поверну, то оно будет скручиваться, а если я встряхну, оно будет трястись», — говорит Каргер. "Вы хотите того же ощущения, когда вы манипулируете информацией в компьютере — что вы собираете информацию и толкаете ее в эту сторону, или сдвигаете ее в эту сторону, или вырезаете вещи — вместо того, чтобы писать какие-то инструкции, указывающие компьютеру сделай что-нибудь.
А потом компьютер сделает это, и ты скажешь: «О, я не это имел в виду».Бакке провел два исследования удобства использования своего инструмента. В одном из них 14 участников попросили составить серию запросов с помощью этого инструмента, а затем оценить свой опыт с помощью шкалы удобства использования системы, стандартной меры, позволяющей сравнивать различные типы программного обеспечения. В категории программного обеспечения для бизнеса оценки колебались в районе 50-го процентиля, что неплохо для академического исследовательского проекта.
Но результаты программы баз данных Microsoft Access намного хуже — около четвертого процентиля. «Этот результат можно описать так, что запросы к базе данных сложны, но мы можем сделать их приемлемыми», — говорит Бакке.В настоящее время инструмент Бакке позволяет создавать запросы к существующей базе данных, но не позволяет напрямую вводить или изменять данные. Он планирует начать добавлять эту функциональность в течение следующих шести месяцев, и на стене его офиса есть список функций, которые он хотел бы добавить, и ошибок, которые ему нужно исправить.
Но он надеется выпустить инструмент через год или около того.«Это почти иронично», — говорит Каргер. «Программное обеспечение Эйрика намного надежнее, чем все, что создали аспиранты.
Но он не удовлетворен выпуском его в его нынешнем виде. Он стремится к чему-то коммерческому».
«Оказывается, когда вы имеете дело с данными людей, вам действительно нужно делать это правильно», — говорит Бакке.
