Распознавание объектов для роботов: карты окружающей среды роботов могут сделать существующие алгоритмы распознавания объектов более точными.

На прошлой неделе на конференции «Робототехника и системы» члены группы Леонарда представили новый документ, демонстрирующий, как SLAM можно использовать для улучшения систем распознавания объектов, которые станут жизненно важным компонентом будущих роботов, которые должны будут манипулировать окружающими их объектами. произвольными способами.Система использует информацию SLAM для дополнения существующих алгоритмов распознавания объектов. Таким образом, его производительность должна продолжать улучшаться по мере того, как исследователи компьютерного зрения разрабатывают лучшее программное обеспечение для распознавания, а робототехники разрабатывают лучшее программное обеспечение SLAM.

«Рассматривая распознавание объектов как черный ящик, и рассматривая SLAM как черный ящик, как вы их интегрируете в приятной манере?» — спрашивает Судип Пиллаи, аспирант в области компьютерных наук и инженерии и первый автор новой статьи. «Как вы учитываете вероятности с каждой точки зрения с течением времени? Это действительно то, чего мы хотели достичь».Однако, несмотря на работу с существующими алгоритмами SLAM и распознавания объектов, и несмотря на то, что используется только выходной сигнал обычной видеокамеры, производительность системы уже сопоставима с характеристиками специализированных роботизированных систем распознавания объектов, которые учитывают как измерения глубины, так и визуальная информация.И, конечно же, поскольку система может объединять информацию, полученную с разных углов камеры, она работает намного лучше, чем системы распознавания объектов, пытающиеся идентифицировать объекты на неподвижных изображениях.

Границы рисованияПо словам Пиллаи, прежде чем рискнуть предположить, какие объекты содержатся в изображении, новые системы распознавания объектов сначала пытаются определить границы между объектами. На основе предварительного анализа цветовых переходов они разделят изображение на прямоугольные области, которые, вероятно, содержат какие-то объекты.

Затем они запустят алгоритм распознавания только для пикселей внутри каждого прямоугольника.Чтобы получить хороший результат, классической системе распознавания объектов, возможно, придется перерисовывать эти прямоугольники тысячи раз. С некоторых точек зрения, например, два объекта, стоящие рядом друг с другом, могут выглядеть как один, особенно если они одинакового цвета. Система должна будет проверить гипотезу, объединяющую их вместе, а также гипотезы, которые рассматривают их как отдельные.

Однако, поскольку карта SLAM является трехмерной, она лучше справляется с распознаванием объектов, находящихся рядом друг с другом, чем анализ с одной перспективой. Система, разработанная Пиллаи и Леонардом, профессором машиностроения и океанической инженерии, использует карту SLAM для управления сегментацией изображений, снятых камерой, перед передачей их в алгоритм распознавания объектов. Таким образом, он тратит меньше времени на ложные гипотезы.Что еще более важно, данные SLAM позволяют системе коррелировать сегментацию изображений, снятых с разных точек зрения.

Анализ сегментов изображения, которые, вероятно, изображают одни и те же объекты под разными углами, улучшает производительность системы.Идеальная картинаИспользуя машинное обучение, другие исследователи создали системы распознавания объектов, которые действуют непосредственно на подробных трехмерных картах SLAM, построенных на основе данных, полученных с помощью камер, таких как Microsoft Kinect, которые также производят измерения глубины.

Но в отличие от этих систем, система Пиллаи и Леонарда может использовать обширные исследования в области распознавания объектов, обученных на изображениях с одной перспективой, снятых стандартными камерами.Более того, производительность системы Пиллаи и Леонарда уже сопоставима с производительностью систем, использующих информацию о глубине. И это намного надежнее на открытом воздухе, где датчики глубины, такие как Kinect, которые зависят от инфракрасного света, практически бесполезны.

В новой статье Пиллаи и Леонарда описывается, как SLAM может помочь улучшить обнаружение объектов, но в текущей работе Пиллаи изучает, может ли обнаружение объектов аналогичным образом помочь SLAM. Одна из основных проблем SLAM — это то, что робототехники называют «замыканием петли».

Когда робот строит карту своего окружения, он может оказаться там, где он уже был, — например, войти в комнату через другую дверь. Робот должен уметь распознавать ранее посещенные места, чтобы он мог объединять картографические данные, полученные с разных точек зрения.

Распознавание объектов может помочь с этой проблемой. Если робот входит в комнату и обнаруживает стол для переговоров с ноутбуком, кофейной кружкой и блокнотом на одном конце, он может сделать вывод, что это тот же конференц-зал, где он ранее идентифицировал ноутбук, кофейную кружку и ноутбук в непосредственной близости.