«Наши результаты показывают, что с помощью обратного инжиниринга того, как люди думают о проблеме, мы можем разрабатывать более совершенные алгоритмы», — объясняет Бренден Лейк, научный сотрудник Мура-Слоана в Нью-Йоркском университете и ведущий автор статьи. «Более того, эта работа указывает на многообещающие методы сокращения разрыва для других задач машинного обучения».Другими авторами статьи были Руслан Салахутдинов, доцент кафедры компьютерных наук Университета Торонто, и Джошуа Тененбаум, профессор Массачусетского технологического института, кафедра мозговых и когнитивных наук и Центра мозга, разума и машин.
Когда люди знакомятся с новой концепцией — например, с новым кухонным оборудованием, новым танцевальным движением или новой буквой в незнакомом алфавите — им часто требуется всего несколько примеров, чтобы понять ее структуру и распознать новые экземпляры. . В то время как машины теперь могут копировать некоторые задачи распознавания образов, которые раньше выполнялись только людьми — например, банкоматы считывают числа, написанные на чеке — машинам, как правило, требуется предоставить сотни или тысячи примеров для выполнения с аналогичной точностью.«Было очень сложно построить машины, которым для изучения новой концепции требуется не меньше данных, чем людям», — отмечает Салахутдинов. «Воспроизведение этих способностей — захватывающая область исследований, объединяющая машинное обучение, статистику, компьютерное зрение и когнитивную науку».
Салахутдинов помог пробудить в последнее время интерес к обучению с помощью «глубоких нейронных сетей» в статье, опубликованной в журнале Science почти 10 лет назад вместе с его научным руководителем Джеффри Хинтоном. Их алгоритм изучил структуру 10 рукописных концепций символов — цифр 0–9 — на основе 6000 примеров каждый, или всего 60000 обучающих примеров.В работе, опубликованной в Science на этой неделе, исследователи стремились сократить процесс обучения и сделать его более похожим на то, как люди приобретают и применяют новые знания, т. Е. Учатся на небольшом количестве примеров и выполняют ряд задач, таких как как создание новых примеров концепции или создание совершенно новых концепций.
Для этого они разработали структуру «Байесовского программного обучения» (BPL), в которой концепции представлены в виде простых компьютерных программ. Например, буква «А» представлена компьютерным кодом — напоминающим работу компьютерного программиста — который генерирует примеры этой буквы при запуске кода. Тем не менее, в процессе обучения программист не требуется: алгоритм сам программирует, создавая код для получения буквы, которую он видит.
Кроме того, в отличие от стандартных компьютерных программ, которые производят один и тот же результат при каждом запуске, эти вероятностные программы производят разные результаты при каждом выполнении. Это позволяет им уловить то, как различаются экземпляры концепции, например, различия между тем, как два человека рисуют букву «А».В то время как стандартные алгоритмы распознавания образов представляют концепции в виде конфигураций пикселей или наборов функций, подход BPL изучает «генеративные модели» процессов в мире, делая обучение вопросом «построения модели» или «объяснения» данных, предоставляемых алгоритму.
В случае написания и распознавания букв BPL предназначен для улавливания как причинных, так и композиционных свойств реальных процессов, что позволяет алгоритму более эффективно использовать данные. Модель также «учится учиться», используя знания из предыдущих концепций для ускорения изучения новых концепций — например, используя знание латинского алфавита для изучения букв греческого алфавита. Авторы применили свою модель к более чем 1600 типам рукописных символов в 50 системах письма в мире, включая санскрит, тибетский, гуджарати, глаголический, и даже придумали персонажей, таких как персонажи из телесериала Футурама.
Помимо тестирования способности алгоритма распознавать новые экземпляры концепции, авторы попросили как людей, так и компьютеры воспроизвести серию рукописных символов после того, как им будет показан один пример каждого символа, или, в некоторых случаях, создать новых персонажей в стиль тех, кто был показан. Затем ученые сравнили результаты работы людей и машин с помощью «визуальных тестов Тьюринга».
Здесь судьям-людям были даны парные примеры результатов как человека, так и машины, а также исходная подсказка и их попросили определить, какие символы были созданы компьютером.Хотя правильные ответы судей различались для разных персонажей, для каждого визуального теста Тьюринга менее 25 процентов судей показали значительно лучшие результаты, чем случайность, при оценке того, произвел ли данный набор символов машина или человек.«Перед тем, как попасть в детский сад, дети учатся распознавать новые концепции на одном единственном примере и могут даже вообразить новые примеры, которых они еще не видели», — отмечает Тененбаум. «Я хотел создать модели этих замечательных способностей со времен моей докторской диссертации в конце девяностых. Мы все еще далеки от создания машин, умных, как человеческое дитя, но это первый раз, когда у нас есть машина, способная учиться и использовать большой класс реальных концепций — даже простые визуальные концепции, такие как рукописные символы — способами, которые трудно отличить от людей ».
Работа поддержана грантами Национального научного фонда Центру мозга, разума и машин Массачусетского технологического института (CCF-1231216), Управлению армейских исследований (W911NF-08-1-0242, W911NF-13-1-2012), Управлению военно-морских исследований (N000141310333) и среды обработки данных Мура-Слоана в Нью-Йоркском университете.
