Новый подход может открыть доступ к распознаванию речи для большего количества языков: система сопоставляет записанную речь с изображениями, что может привести к полностью автоматизированному распознаванию речи.

Но расшифровка записей — дорогостоящая и трудоемкая работа, из-за которой распознавание речи ограничивается небольшим подмножеством языков, на которых говорят в богатых странах.На конференции Neural Information Processing Systems на этой неделе исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) представляют новый подход к обучению систем распознавания речи, который не зависит от транскрипции. Вместо этого их система анализирует соответствия между изображениями и устными описаниями этих изображений, зафиксированными в большой коллекции аудиозаписей.

Затем система изучает, какие акустические характеристики записей коррелируют с какими характеристиками изображения.«Цель этой работы — попытаться заставить машину изучать язык, как это делают люди», — говорит Джим Гласс, старший научный сотрудник CSAIL и соавтор статьи, описывающей новую систему. «Текущие методы, которые люди используют для обучения распознавателей речи, очень контролируемы. Вы получаете высказывание, и вам говорят, что сказано.

И вы делаете это для большого объема данных.«Были достигнуты большие успехи — Siri, Google, — но получать эти аннотации дорого, и люди, таким образом, сосредоточились на действительно основных языках мира. Существует 7000 языков, и я думаю, что менее 2 процентов имеют Возможность ASR [автоматическое распознавание речи], и, вероятно, ничего не будет сделано для решения других проблем.

Поэтому, если вы пытаетесь подумать о том, как технология может быть полезна для общества в целом, интересно подумать о том, что нам нужно делать. изменить текущую ситуацию. И подход, который мы применяем на протяжении многих лет, заключается в том, чтобы понять, чему мы можем научиться при меньшем контроле ".

К Глассу на бумаге присоединились первый автор Дэвид Харват, аспирант кафедры электротехники и информатики (EECS) Массачусетского технологического института; и Антонио Торральба, профессор EECS.Визуальная семантика

Версия системы, описанная в новом документе, не коррелирует записанную речь с письменным текстом; вместо этого он соотносит речь с группами тематически связанных изображений. Но эта корреляция может служить основой для других.Если, например, высказывание связано с определенным классом изображений, и изображения имеют связанные с ними текстовые термины, должна быть возможность найти вероятную транскрипцию высказывания без вмешательства человека.

Точно так же класс изображений со связанными текстовыми терминами на разных языках может обеспечить способ автоматического перевода.И наоборот, можно сделать вывод, что текстовые термины, связанные с подобными кластерами изображений, такими как, скажем, «шторм» и «облака», имеют связанные значения. Поскольку система в некотором смысле изучает значения слов — связанных с ними изображений — а не только их звуки, она имеет более широкий спектр потенциальных применений, чем стандартная система распознавания речи.

Чтобы протестировать свою систему, исследователи использовали базу данных из 1000 изображений, каждое из которых имело запись связанного с ним словесного описания в свободной форме. Они скармливали своей системе одну из записей и просили ее извлечь 10 изображений, которые лучше всего ей соответствовали. Этот набор из 10 изображений будет содержать правильный в 31% случаев.

«Я всегда подчеркиваю, что мы делаем здесь только маленькие шаги, и нам предстоит еще долгий путь», — говорит Гласс. «Но это обнадеживающее начало».Исследователи обучили свою систему изображениям из огромной базы данных, созданной Торральбой; Од Олива, главный научный сотрудник CSAIL; и их ученики.

Через краудсорсинговый сайт Amazon Mechanical Turk они наняли людей для устного описания изображений, используя любую формулировку, которая приходит в голову, в течение примерно 10–20 секунд.Для первоначальной демонстрации подхода исследователей такие индивидуализированные данные были необходимы для обеспечения хороших результатов. Но конечная цель — обучить систему с помощью цифрового видео с минимальным участием человека. «Я думаю, что это будет естественным образом экстраполировано на видео», — говорит Гласс.

Условия слиянияДля создания своей системы исследователи использовали нейронные сети, системы машинного обучения, которые приблизительно имитируют структуру мозга. Нейронные сети состоят из узлов обработки, которые, как и отдельные нейроны, способны выполнять только очень простые вычисления, но связаны друг с другом в плотных сетях. Данные поступают на входные узлы сети, которые изменяют их и передают другим узлам, которые изменяют их и передают другим узлам и т. Д. Когда нейронная сеть обучается, она постоянно изменяет операции, выполняемые ее узлами, чтобы улучшить свою производительность при выполнении определенной задачи.

Сеть исследователей, по сути, представляет собой две отдельные сети: одна принимает изображения в качестве входных данных, а другая принимает спектрограммы, которые представляют аудиосигналы как изменения амплитуды во времени на составляющих их частотах. На выходе верхнего уровня каждой сети получается 1024-мерный вектор — последовательность из 1024 чисел.

Последний узел в сети принимает скалярное произведение двух векторов. То есть он умножает соответствующие члены в векторах вместе и складывает их все, чтобы получить одно число. Во время обучения сети должны были попытаться максимизировать скалярное произведение, когда звуковой сигнал соответствует изображению, и минимизировать его, когда это не так.Для каждой спектрограммы, которую анализирует система исследователей, она может определить точки, в которых скалярное произведение достигает максимума.

В экспериментах эти пики надежно выбирали слова, которые обеспечивали точные обозначения изображения — «бейсбол», например, на фотографии бейсбольного питчера в действии или «травяной» и «поле» для изображения травянистого поля.В ходе текущей работы исследователи усовершенствовали систему, чтобы она могла выделять спектрограммы отдельных слов и идентифицировать только те области изображения, которые им соответствуют.