Новая система, которая была протестирована на фотографиях и теперь применяется к видео, впервые показывает, что алгоритм машинного обучения для распознавания и поиска изображений достаточно точен и эффективен для улучшения крупномасштабного поиска документов в Интернете. Система использует пиксельные данные в изображениях и, возможно, видео — а не только в тексте — для поиска документов.
Он учится распознавать пиксели, связанные с поисковой фразой, изучая результаты текстовых поисковых систем по изображениям. Знания, почерпнутые из этих результатов, затем могут быть применены к другим фотографиям без тегов или подписей, что позволяет получить более точные результаты поиска документов.
Результаты опубликованы в журнале PAMI (IEEE Transactions on Pattern Analysis and Machine Intelligence).«В Интернете полно изображений, и наш подход означает, что они больше не будут игнорироваться при поиске документов», — говорит доцент Лоренцо Торресани, соавтор исследования. «За последние 30 лет Интернет превратился из небольшой коллекции, состоящей в основном из текстовых документов, в современный, гигантский, быстрорастущий набор мультимедийных данных, где почти каждая страница включает в себя несколько изображений или видео. Когда человек просматривает веб-страницу, она сразу же понимает суть этого, глядя на изображения в нем. Тем не менее, что удивительно, все существующие популярные поисковые системы, такие как Google или Bing, удаляют информацию, содержащуюся на фотографиях, и используют исключительно текст веб-страниц для выполнения поиск документов.
Наше исследование — первое, показывающее, что современные системы машинного зрения достаточно точны и эффективны, чтобы эффективно использовать информацию, содержащуюся в пикселях изображения, для улучшения поиска документов ».Исследователи разработали и протестировали систему машинного зрения — тип искусственного интеллекта, который позволяет компьютерам обучаться без явного программирования — которая извлекает семантическую информацию из пикселей фотографий на веб-страницах. Эта информация используется для дополнения описания HTML-страницы, используемой поисковыми системами для поиска документов. Исследователи протестировали свой подход, используя более 600 поисковых запросов в базе данных, содержащей 50 миллионов веб-страниц.
Они выбрали поисковую машину текстового поиска с лучшей производительностью и модифицировали ее, чтобы использовать дополнительную семантическую информацию, извлеченную их методом из изображений веб-страниц. Они обнаружили, что это дает 30-процентное улучшение точности по сравнению с исходной поисковой системой, основанной исключительно на тексте. Новая система была разработана исследователями Дартмутского колледжа, Tecnalia Research.
Инновации и исследования Microsoft в Кембридже.
