Они продемонстрировали свою технику, своего рода обучение с подкреплением, заставив робота выполнить различные задачи — поставить вешалку для одежды на стойку, собрать игрушечный самолет, завинтить крышку бутылки с водой и т. Д. — без заранее запрограммированных деталей. о его окрестностях.«Мы сообщаем о новом подходе к обучению роботов», — сказал профессор Питер Аббель из Департамента электротехники и компьютерных наук Калифорнийского университета в Беркли. «Суть в том, что когда робот сталкивается с чем-то новым, нам не нужно его перепрограммировать.
Точно такое же программное обеспечение, которое кодирует, как робот может учиться, было использовано, чтобы позволить роботу изучить все различные задачи, которые мы давали. Это."Последние разработки будут представлены 28 мая в Сиэтле на Международной конференции по робототехнике и автоматизации (ICRA). Аббил возглавляет проект вместе с другим преподавателем Калифорнийского университета в Беркли Тревором Дарреллом, директором Berkeley Vision and Learning Center.
Другие члены команды — постдокторант Сергей Левин и к.т.н. студентка Челси Финн.Работа является частью новой инициативы «Люди и роботы» Центра исследований информационных технологий в интересах общества Калифорнийского университета (CITRIS).
Новая мульти-кампусная междисциплинарная исследовательская инициатива направлена на то, чтобы головокружительные достижения в области искусственного интеллекта, робототехники и автоматизации соответствовали потребностям человека.«Большинство роботизированных приложений находятся в контролируемой среде, где объекты находятся в предсказуемых положениях», — сказал Даррелл. «Проблема размещения роботов в реальных условиях, таких как дома или офисы, заключается в том, что эти среды постоянно меняются. Робот должен уметь воспринимать окружающую среду и адаптироваться к ней».
Нейронное вдохновениеОбычные, но непрактичные подходы к тому, чтобы помочь роботу пробиться в трехмерном мире, включают предварительное программирование его для обработки широкого спектра возможных сценариев или создание имитируемой среды, в которой работает робот.
Вместо этого исследователи Калифорнийского университета в Беркли обратились к новой ветви искусственного интеллекта, известной как глубокое обучение, которая в значительной степени основана на нейронных схемах человеческого мозга, когда он воспринимает мир и взаимодействует с ним.«При всей нашей универсальности, люди не рождаются с набором моделей поведения, которые можно использовать, как швейцарский армейский нож, и нам не нужно программировать», — сказал Левин. «Вместо этого мы учимся новым навыкам в течение нашей жизни на собственном опыте и у других людей. Этот процесс обучения настолько глубоко укоренился в нашей нервной системе, что мы даже не можем сообщить другому человеку, как именно этот навык должен быть реализован. Мы в лучшем случае могут надеяться предложить указатели и рекомендации, поскольку они узнают это самостоятельно ".
В мире искусственного интеллекта программы глубокого обучения создают «нейронные сети», в которых слои искусственных нейронов обрабатывают перекрывающиеся необработанные сенсорные данные, будь то звуковые волны или пиксели изображения. Это помогает роботу распознавать закономерности и категории в получаемых данных. Люди, которые используют Siri на своих iPhone, программу преобразования речи в текст Google или Google Street View, возможно, уже извлекли выгоду из значительных достижений глубокого обучения в распознавании речи и зрения.Однако применение глубокого обучения с подкреплением к двигательным задачам оказалось гораздо более сложной задачей, поскольку задача выходит за рамки пассивного распознавания изображений и звуков.
«Передвижение в неструктурированной трехмерной среде — это совсем другое дело», — сказал Финн. «Нет ни обозначенных указаний, ни примеров того, как решить проблему заранее. Нет примеров правильного решения, как в программах распознавания речи и зрения».
Практика делает совершенствоВ ходе экспериментов исследователи из Калифорнийского университета в Беркли работали с персональным роботом Willow Garage Personal Robot 2 (PR2), который они назвали BRETT, или роботом Беркли для устранения утомительных задач.Они предложили BRETT ряд двигательных задач, таких как размещение блоков в соответствующие отверстия или штабелирование блоков Lego. Алгоритм, управляющий обучением BRETT, включал функцию вознаграждения, которая давала оценку, основанную на том, насколько хорошо робот справлялся с задачей.
БРЕТТ снимает сцену, в том числе положение своих рук и кистей рук, если смотреть в камеру. Алгоритм обеспечивает обратную связь в режиме реального времени через счет, основанный на движениях робота.
Движения, приближающие робота к выполнению задачи, получают больше очков, чем те, которые этого не делают. Счет передается через нейронную сеть, поэтому робот может узнать, какие движения лучше подходят для выполнения поставленной задачи.Этот непрерывный процесс обучения лежит в основе способности робота учиться самостоятельно. По мере того как PR2 перемещает суставы и манипулирует объектами, алгоритм вычисляет хорошие значения для 92 000 параметров нейронной сети, которую ему необходимо изучить.
При таком подходе при наличии соответствующих координат начала и конца задачи PR2 может справиться с типичным заданием примерно за 10 минут. Когда роботу не указано местоположение для объектов на сцене и ему необходимо вместе изучить видение и управление, процесс обучения занимает около трех часов.Аббель говорит, что в этой области, вероятно, будут наблюдаться значительные улучшения по мере улучшения способности обрабатывать огромные объемы данных.
«Имея больше данных, вы можете начать изучать более сложные вещи», — сказал он. «Нам еще предстоит пройти долгий путь, прежде чем наши роботы смогут научиться убирать в доме или сортировать белье, но наши первоначальные результаты показывают, что такие методы глубокого обучения могут иметь преобразующий эффект, позволяя роботам полностью изучать сложные задачи из царапина. В ближайшие пять-десять лет мы можем увидеть значительный прогресс в возможностях обучения роботов благодаря этому направлению работы ».
