Машинное обучение использовалось для обобщения историй, которые рассказывают носимые камеры

Исследователи работают над разработкой инструментов, которые помогут понять огромное количество видео, которое будет производиться с помощью технологий носимых камер, таких как Google Glass и Looxcie.«Количество того, что мы называем« эгоцентрическим »видео, которое снимается с точки зрения движущегося человека, вот-вот взорвется», — сказала Кристен Грауман, доцент кафедры информатики в Колледже естественных наук. . «Нам понадобятся более эффективные методы для обобщения и анализа этих данных».Грауман и ее коллеги разработали превосходную технику, которая использует машинное обучение для автоматического анализа записанных видеороликов и создания более качественной короткой «истории» из отснятого материала, чем то, что доступно с помощью существующих методов.Лучшее обобщение видео должно оказаться важным в помощи военным командирам в управлении данными, поступающими с камер солдат, следователям, пытающимся проанализировать видеоданные с мобильных телефонов после стихийных бедствий, таких как взрыв на Бостонском марафоне, и пожилым людям, использующим видео-резюме своих дней, чтобы компенсировать — потеря памяти, — сказал Грауман.

«Есть исследования, показывающие, что если люди, страдающие потерей памяти, носят камеру, которая делает снимок раз в минуту, а затем просматривают эти изображения в конце дня, это может помочь им вспомнить», — сказал Грауман. «Это очень вдохновляет. Что, если бы вместо изображений, которые были выбраны только потому, что они были разделены на минуту, было выбрано видео или фотографическое резюме, которое было выбрано, потому что оно рассказывало хорошую историю? Может быть, это поможет даже больше. мы надеемся достичь ".

Этим летом Грауман, ее постдок Лу Чжэн и докторант Йонг Джэ Ли представили свой метод, который они называют «основанным на сюжете» видео-резюмированием, на конференции IEEE по компьютерному зрению и распознаванию образов этим летом.Их выводы основаны на видео, собранном добровольцами с имеющимися в продаже камерами Looxcie, которые стоят около 200 долларов, записывают пять часов видео подряд, подключаются к смартфонам и помещаются в ухе, как большое устройство Bluetooth.

«Задача состоит в том, чтобы снять очень длинное видео и автоматически сжать его в очень короткие видеоклипы или серию кадров, которые передают суть истории», — сказал Грауман. «Однако для этого мы сначала должны спросить: что делает хорошую визуальную историю? Наш ответ состоит в том, что помимо отображения важных людей, объектов и сцен, она также должна передавать, как одно ведет к другому».

Чтобы решить эту проблему, Грауман и ее коллеги использовали двухэтапный подход. Первый шаг заключался в использовании методов машинного обучения, чтобы научить их систему «оценивать» значимость объектов в поле зрения на основе эгоцентрических факторов, таких как то, как часто объекты появляются в центре кадра, что является хорошим показателем того, где находится владелец камеры. пристальный взгляд, или касаются ли они руками владельца.«Если вы дадите нам регион на видео, мы вернем уровень важности, основанный на всех тех свойствах, которые мы извлекли и научились комбинировать», — сказал Грауман. «Так что в этот момент вы можете выбрать кадры, которые будут максимально важны».Следующим шагом было использовать эти важные кадры в видео и искать ранние, которые влияют на последующие.

Для этого они адаптировали метод, разработанный исследователями из Университета Карнеги-Меллона, который мог предсказать, как одна новостная статья приведет к другой, собирая серию статей для перехода от начальной точки к известной конечной точке.В работе над текстом исследователи использовали частоту слов и корреляцию между статьями для количественной оценки влияния.

Для работы с видео Грауман и Лу использовали свои важные объекты и кадры, чтобы сделать то же самое. Затем они смогли идентифицировать цепочку видеоклипов, которые эффективно заполняли историю от начала до конца.

«Мы провели человеческие« вкусовые тесты », сравнивая наш метод с предыдущими методами, — сказал Грауман, — и от 75 до 90 процентов людей, оценивавших итоги, в зависимости от сравниваемых наборов данных и метода, пришли к выводу, что наша система лучше».Грауман сказал, что по мере того, как методы резюмирования видео продолжают совершенствоваться, они станут бесценным помощником не только для людей с очень специализированными потребностями, таких как полицейские следователи и страдающие от потери памяти, но и для обычных пользователей Интернета.«Я надеюсь, что мы сможем сделать просмотр видео намного ближе к тому, что мы испытываем при просмотре изображений», — сказала она. «Рассмотрите возможность просмотра 50 изображений на веб-странице. Это управляемо, поскольку вы можете прокрутить вниз и увидеть их все за один проход.

А теперь представьте, что вы пытаетесь просмотреть 50 видео в Интернете. Это просто неэффективно. Нам нужны алгоритмы суммирования, чтобы значительно улучшить поиск видео. . "