Исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института считают, что домашние роботы должны использовать преимущества своей мобильности и относительно статичной среды, чтобы упростить распознавание объектов, визуализируя объекты с разных точек зрения, прежде чем делать суждения об их идентичности. Однако сопоставление объектов, изображенных на разных изображениях, создает свои собственные вычислительные проблемы.В статье, которая появится в предстоящем выпуске Международного журнала исследований робототехники, исследователи Массачусетского технологического института показывают, что система, использующая стандартный алгоритм для агрегирования различных точек зрения, может распознавать в четыре раза больше объектов, чем система, использующая одну точку зрения. при уменьшении количества ошибочных идентификаций.Затем они представляют новый алгоритм, который столь же точен, но в некоторых случаях в 10 раз быстрее, что делает его гораздо более практичным для развертывания в реальном времени с бытовыми роботами.
«Если вы просто взяли результат взгляда на него с одной точки обзора, то может быть не хватает многих вещей, или это может быть угол освещения или что-то, блокирующее объект, что вызывает систематическую ошибку в детекторе», — говорит Лоусон. Вонг, аспирант в области электротехники и информатики и ведущий автор новой статьи. «Один из способов обойти это — просто переместиться и перейти к другой точке обзора».Первый удар
Вонг и его научные руководители — Лесли Келблинг, профессор компьютерных наук и инженерии компании Panasonic, и Томас Лозано-Перес, профессор педагогического мастерства Инженерной школы — рассмотрели сценарии, в которых у них было от 20 до 30 различных изображений предметов домашнего обихода. вместе на столе. В нескольких сценариях кластеры включали несколько экземпляров одного и того же объекта, плотно упакованных вместе, что затрудняет задачу сопоставления различных точек зрения.
Первый опробованный ими алгоритм был разработан для систем слежения, таких как радар, который также должен определять, являются ли объекты, отображаемые в разное время, на самом деле одинаковыми. «Он существует уже несколько десятилетий, — говорит Вонг. «И для этого есть веская причина: это действительно хорошо работает. Это первое, о чем думает большинство людей».
Для каждой пары последовательных изображений алгоритм генерирует несколько гипотез о том, какие объекты в одном соответствуют объектам в другом. Проблема в том, что количество гипотез увеличивается по мере добавления новых перспектив. Чтобы расчет оставался управляемым, алгоритм на каждом шаге отбрасывает все гипотезы, кроме основных.
Даже в этом случае сортировка их всех после того, как последняя гипотеза была сформирована, является трудоемкой задачей.Репрезентативная выборкаВ надежде получить более эффективный алгоритм исследователи Массачусетского технологического института приняли другой подход.
Их алгоритм не отбрасывает ни одну из гипотез, которые он генерирует для последовательных изображений, но и не пытается проанализировать их все. Вместо этого он выбирает из них случайным образом.
Поскольку существует значительное совпадение между различными гипотезами, достаточное количество выборок обычно приводит к консенсусу в отношении соответствий между объектами на любых двух последовательных изображениях.Чтобы сохранить необходимое количество выборок на низком уровне, исследователи применили упрощенный метод оценки гипотез. Предположим, что алгоритм идентифицировал три объекта с одной точки зрения и четыре с другой.
Самый математически точный способ сравнить гипотезы — это рассмотреть все возможные наборы совпадений между двумя группами объектов: набор, который сопоставляет объекты 1, 2 и 3 в первом представлении с объектами 1, 2 и 3 во втором ; набор, который сопоставляет объекты 1, 2 и 3 в первом с объектами 1, 2 и 4 во втором; набор, который сопоставляет объекты 1, 2 и 3 в первом представлении с объектами 1, 3 и 4 во втором и т. д. В этом случае, если вы включите возможность того, что детектор допустил ошибку и что некоторые объекты закрыты для некоторых видов, этот подход даст 304 различных набора совпадений.Вместо этого алгоритм исследователей рассматривает каждый объект в первой группе отдельно и оценивает его вероятность отображения на объект во второй группе. Таким образом, объект 1 в первой группе может отображаться на объекты 1, 2, 3 или 4 во второй, как и объект 2 и так далее.
Опять же, с учетом возможности ошибки и закупорки, этот подход требует всего 20 сравнений.Однако это открывает путь к бессмысленным результатам. Алгоритм может сделать вывод, что наиболее вероятным совпадением для объекта 3 во второй группе является объект 3 в первой, а также может сделать вывод, что наиболее вероятным совпадением для объекта 4 во второй группе является объект 3 в первой.
Таким образом, алгоритм исследователей также ищет такие двойные сопоставления и переоценивает их. Это требует дополнительного времени, но не так много, как рассмотрение агрегированных сопоставлений.
В этом случае алгоритм выполнит 32 сравнения — больше 20, но значительно меньше 304.
