Меркель, канцлер Германии, или Меркель, футбольный тренер? Программа сопоставляет неоднозначные имена в текстах нужным людям

Если имя двусмысленное и дано без контекста, даже люди будут бороться. Читая фамилию «Меркель», люди не понимают, относится ли она к канцлеру Германии Ангеле Меркель или известному футбольному тренеру Максу Меркель. Это тоже недостаток для веб-поиска.

До сих пор программы могли захватывать строки символов, такие как «Ангела Меркель», но они вообще не обращали внимания на такие атрибуты, как «Канцлер Германии» или «Первая леди Германии». Хуже того, после ввода слова «Меркель» поисковые системы предоставляют информацию о множестве людей с одинаковой фамилией.Исследователи из Института информатики Макса Планка разработали программу, которая позволяет точно определять неоднозначность названных сущностей, анализируя их с помощью бесплатной Интернет-энциклопедии Википедия. Их программное обеспечение под названием AIDA устанавливает связи между упоминаниями в тексте и потенциальными людьми или местами. «Чем больше ссылок существует между упоминанием и конкретным человеком в Википедии, тем больше слов из статьи этого человека в Википедии также можно найти во входном тексте и тем выше балл, полученный краем объекта упоминания.

AIDA проверяет этот балл и выбирает край упоминания-сущности с наивысшей оценкой как точное отображение », — объясняет Йоханнес Хоффарт, соавтор разработки AIDA в Институте информатики Макса Планка.Чтобы продемонстрировать свою новую технику, исследователи внедрили поисковую систему, основанную на их подходе.

Поисковая система позволяет не только совмещать поиск строк с поиском определенных объектов, таких как люди и местоположения, но и выполнять поиск по категориям. Таким образом, поиск по запросу «Ангела Меркель + телефонный звонок + украинские политики» приводит к текстам, касающимся канцлера Германии в контексте украинских политиков, таких как «Юлия Тимошенко», и строки «телефонный звонок».

В настоящее время исследователи используют AIDA для анализа текстового корпуса Национальной библиотеки Германии, чтобы объединить поиск по ключевым словам с поиском конкретных объектов. «Таким образом результаты поиска становятся более точными», — отмечает Хоффарт.«С помощью нашей новой техники мы можем не только создавать более совершенные поисковые системы, но и заставить компьютеры понимать тексты почти так же, как это делает человек», — объясняет Герхард Вейкум, научный директор Института информатики Макса Планка в Саарбрюккене. Этот подход также открывает новые возможности для автоматически генерируемых рекомендаций и анализа наборов данных, — говорит Вейкум, который также проводит исследования в кластере передового опыта «Мультимодальные вычисления и взаимодействие» в Саарбрюккене. «Кто бы ни был поклонником футбольного тренера Меркель, он получит рекомендации по поводу его книг. Те, кто больше интересуется канцлером, получат ссылки на книги, посвященные ей и ее способу управления Германией», — объясняет Вейкум.

Как программное обеспечение AIDA, так и его исходный код доступны для целей исследования.