Как большие данные могут быть использованы для понимания основных событий

Ученые из Лаборатории интеллектуальных систем (ISL) Университета, возглавляемой профессором искусственного интеллекта Нелло Кристианни, проанализировали освещение в СМИ президентских выборов 2012 года в США с использованием больших данных. Статья опубликована в журнале Big Data. Общество.Это первое исследование, в котором политические позиции были автоматически получены из очень большого количества онлайн-новостей.

Созданная система выходит далеко за рамки традиционных сетей словесных ассоциаций с использованием более обширного лингвистического анализа текстов.Анализируя отдельные кампании основных кандидатов в президенты, Обамы и Ромни, исследовательская группа изучила, как каждая кампания была представлена ​​в средствах массовой информации, и обнаружила, что одним из ключевых вопросов, освещаемых средствами массовой информации во время кампании 2012 года, была защита Обамой своих достижений в экономической сфере. политика.

Полученные данные свидетельствуют о том, что основными проблемами Демократической партии в СМИ были экономика США и гражданские права. В целом в СМИ чаще появлялись положительные высказывания о демократах, чем о республиканцах. Республиканцы также чаще становились объектом негативных высказываний демократов и других игроков.Исследование показало, что у республиканцев было больше разногласий по вопросам, чем у демократов.

Самыми спорными темами кампании были экономический раскол между двумя лагерями налоговых льгот и экономики, а также раскол из-за однополых браков.Саатвига Судхахар, научный сотрудник по машинному обучению в ISL и Департаменте компьютерных наук и главный исследователь проекта, сказал: «Отображение полного освещения избирательной кампании офлайн и онлайн-СМИ — очень сложная задача, учитывая большое количество данные и большое количество источников, доступных в странах с развитой демократией.«Мы считаем, что методология, использованная для исследования, является большим шагом вперед в лингвистическом анализе текстов с использованием извлеченных реляционных данных и может помочь нам понять основные события».Исследовательская группа использовала семантический граф, который проанализировал текст и связал его с определенными словосочетаниями и глаголами.

Тройки субъект-глагол-объект затем использовались в качестве строительных блоков для сети. Этот метод никогда не применялся к реальным наборам данных такого масштаба, и миллионы документов были проанализированы для завершения исследования.

Используя данные СМИ и построив взаимосвязи на графике, исследователи обнаружили уникальную смесь одобрения и неодобрения, характерную для республиканского и демократического лагерей.Исследовательская группа обнаружила, что диапазон политических позиций может быть надежно восстановлен из набора претензий, приписываемых каждому субъекту в сообщениях СМИ.

Разделение сети на два основных лагеря убедительно свидетельствует о том, что основные политические отношения могут быть найдены с помощью этого подхода.