Помогаем роботам научиться видеть в трехмерном пространстве: роботам нужно лучше угадывать, что они видят, даже когда части скрыты от просмотра.

Тем не менее, несмотря на все свои таланты, роботы по-прежнему не могут заварить чашку чая.Это потому, что такие задачи, как включение плиты, принесение чайника и поиск молока и сахара, требуют способностей к восприятию, которые для большинства машин все еще остаются фантазией.Среди них — способность понимать трехмерные объекты.

В то время как роботам относительно просто «видеть» объекты с помощью камер и других датчиков, интерпретировать то, что они видят, с одного взгляда сложнее.Аспирант Университета Дьюка Бен Бурчфил говорит, что самые сложные роботы в мире пока не могут делать то, что делают большинство детей, автоматически, но он и его коллеги, возможно, ближе к решению.Бурчфил и его научный руководитель Джордж Конидарис, ныне доцент кафедры информатики в Университете Брауна, разработали новую технологию, которая позволяет машинам понимать трехмерные объекты более богатым и более человеческим способом.

Робот, убирающий посуду со стола, например, должен уметь адаптироваться к огромному количеству мисок, тарелок и тарелок разных размеров и форм, оставленных беспорядочно на загроможденной поверхности.Люди могут взглянуть на новый объект и интуитивно узнать, что это такое, находится ли он правой стороной вверх, вверх ногами или боком, на виду или частично скрыт другими объектами.

Даже когда объект частично скрыт, мы мысленно заполняем части, которые не видим.Их алгоритм восприятия роботов может одновременно угадывать, что это за новый объект и как он ориентирован, без предварительного изучения его под разными углами. Он также может «представить» любые части, которые находятся вне поля зрения.

Роботу с этой технологией не нужно было бы видеть каждую сторону чайника, например, чтобы знать, что у него, вероятно, есть ручка, крышка и носик, и сидит ли он на плите вертикально или неаккуратно.Исследователи говорят, что их подход, который они представили 12 июля на конференции «Робототехника: наука и системы» в Кембридже, штат Массачусетс, допускает меньше ошибок и в три раза быстрее, чем лучшие современные методы.«Это важный шаг к роботам, которые работают вместе с людьми в домах и других реальных условиях, которые менее упорядочены и предсказуемы, чем строго контролируемая среда лаборатории или производственного цеха», — сказал Берчфил.

В их рамках роботу дается ограниченное количество обучающих примеров, и он использует их для обобщения на новые объекты.«Непрактично заранее предполагать, что у робота есть подробная трехмерная модель каждого возможного объекта, с которым он может столкнуться», — сказал Берчфил.Исследователи натренировали свой алгоритм на наборе данных из примерно 4000 полных трехмерных сканирований обычных предметов домашнего обихода: ряда ванн, кроватей, стульев, столов, комодов, мониторов, тумб, диванов, столов и туалетов.

Каждое трехмерное сканирование было преобразовано в десятки тысяч маленьких кубиков или вокселей, сложенных друг на друга, как блоки LEGO, чтобы упростить их обработку.Алгоритм изучал категории объектов, просматривая примеры каждого из них и выясняя, как они различаются и как остаются неизменными, используя версию метода, называемого вероятностным анализом главных компонентов.Когда робот замечает что-то новое, скажем, двухъярусную кровать, ему не нужно просматривать весь свой мысленный каталог в поисках совпадения. На предыдущих примерах он узнает, какими характеристиками обычно обладают кровати.

Основываясь на этих предварительных знаниях, он обладает способностью делать обобщения, как и человек, — понимать, что два объекта могут быть разными, но имеют общие свойства, которые делают их обоими определенным типом мебели.Чтобы проверить этот подход, исследователи загрузили в алгоритм 908 новых трехмерных примеров тех же 10 видов предметов домашнего обихода, просматриваемых сверху.С этой единственной точки зрения алгоритм правильно угадал, что представляет собой большинство объектов и какими должны быть их общие трехмерные формы, включая скрытые части, примерно в 75 процентах случаев — по сравнению с чуть более 50 процентами для состояния готовности. -современная альтернатива.

Он также был способен распознавать объекты, которые вращались по-разному, чего не могут сделать лучшие конкурирующие подходы.По словам Берчфилла, хотя система достаточно быстра — весь процесс занимает около секунды — она ​​все еще далека от человеческого видения.Во-первых, и их алгоритм, и предыдущие методы легко обманывались объектами, которые с определенных точек зрения выглядели похожими по форме.

Они могут увидеть стол сверху и принять его за комод.«В целом, мы ошибаемся чуть менее 25 процентов времени, а лучшая альтернатива делает ошибку почти в половине случаев, так что это большое улучшение», — сказал Бурчфил. «Но он все еще не готов к переезду в ваш дом.

Не стоит класть подушку в посудомоечную машину».Сейчас команда работает над расширением своего подхода, чтобы позволить роботам различать тысячи типов объектов одновременно.

«Исследователи уже некоторое время учат роботов распознавать трехмерные объекты», — сказал Берчфилд. Он объяснил, что нового является способность как распознавать что-то, так и заполнять слепые пятна в поле зрения, чтобы восстановить те части, которые он не видит.

«Это может оказаться неоценимым во многих роботизированных приложениях», — сказал Берчфил.