В отличие от студентов-людей, компьютеры не скучают и не разочаровываются, когда урок слишком легкий или слишком сложный. Но, как и люди, они учатся лучше, когда план урока «в самый раз» соответствует их уровню навыков. Однако придумать правильный учебный план непросто, поэтому ученые-компьютерщики задались вопросом: что, если бы они могли заставить машины проектировать свои собственные?
Это то, что исследователи сделали в нескольких новых исследованиях, создав искусственный интеллект (ИИ), который может понять, как лучше всего обучать себя. Работа может ускорить обучение беспилотным автомобилям и бытовым роботам и даже помочь решить ранее нерешаемые математические задачи.
В одном из новых экспериментов программа ИИ пытается быстро добраться до места назначения, перемещаясь по двумерной сетке, заполненной сплошными блоками. «Агент» совершенствует свои способности посредством процесса, называемого обучением с подкреплением, своего рода методом проб и ошибок.
Чтобы помочь ему ориентироваться во все более сложных мирах, исследователи под руководством Калифорнийского университета (UC) в Беркли, аспиранта Майкла Денниса и Наташи Жак, научного сотрудника Google, рассмотрели два способа рисования карт. Один метод случайного распределения блоков; с этим ИИ мало чему научился. Другой метод запоминал, с чем ИИ боролся в прошлом, и соответственно максимизировал сложность. Но это делало миры слишком сложными, а иногда даже невозможными для завершения.
Поэтому ученые создали подходящую обстановку, используя новый подход, который они назвали ПАРНЫМ. Во-первых, они соединили свой ИИ с почти идентичным, хотя и с немного другим набором сильных сторон, который они назвали антагонистом. Затем у них были третьи миры дизайна ИИ, которые были просты для антагониста, но сложны для первоначального главного героя. Это держало задачи на грани способности главного героя решить. Дизайнер, как и два агента, использует нейронную сеть — программу, вдохновленную архитектурой мозга, — чтобы изучить ее задачу в ходе многих испытаний.
После тренировки главный герой попытался пройти множество сложных лабиринтов. Если он тренировался с использованием двух старых методов, он не решал ни один из новых лабиринтов. Но после обучения с PAIRED он решил одну из пяти , сообщила команда в прошлом месяце на конференции по системам обработки нейронной информации (NeurIPS). «Мы были в восторге от того, как PAIRED начали работать практически с самого начала», — говорит Деннис.
В другом исследовании, представленном на семинаре NeurIPS, Жак и его коллеги из Google использовали версию PAIRED, чтобы научить агента ИИ заполнять веб-формы и бронировать рейс. В то время как более простой метод обучения приводил к провалу почти каждый раз, ИИ, обученный методом PAIRED, добивался успеха примерно в 50% случаев .
Подход PAIRED — это умный способ заставить ИИ учиться, — говорит Барт Селман, ученый-компьютерщик из Корнельского университета и президент Ассоциации развития искусственного интеллекта.
Зельман и его коллеги представили на встрече еще один подход к так называемым «автокурсам». Их задачей была игра под названием Sokoban, в которой агент ИИ должен перемещать блоки в целевые места. Но блоки могут застрять в тупике, поэтому успех часто требует планирования на сотни шагов вперед. (Представьте, что вы переставляете большую мебель в маленькой квартире.)
Их система создает набор более простых головоломок для тренировки с меньшим количеством блоков и целей. Затем, основываясь на недавней производительности их ИИ, он выбирает головоломки, которые агент решает лишь изредка, эффективно повышая план урока до нужного уровня. Иногда правильные головоломки трудно предсказать, говорит Селман. «Понятие о том, что является более простой задачей, не всегда очевидно».
Исследователи протестировали своего обученного агента на 225 задачах, которые ни один компьютер никогда не решал. Он взломал 80% из них, причем около одной трети его успеха было связано исключительно с новым методом обучения. «На это было просто забавно посмотреть», — говорит Селман. Он говорит, что теперь получает изумленные сообщения от исследователей ИИ, которые десятилетиями работали над этой проблемой. Он надеется применить метод рядом с нерешенными математическими доказательствами.
Питер Эббил, ученый-компьютерщик из Калифорнийского университета в Беркли, также показал на встрече, что автокурсы могут помочь роботам научиться манипулировать объектами . Он говорит, что этот подход может быть использован даже для студентов-людей. «Как инструктор, я думаю: «Эй, не каждому ученику нужно одно и то же домашнее задание», — говорит Аббил, отмечая, что ИИ может помочь адаптировать более сложный или легкий материал к потребностям ученика. Что касается автокурсов ИИ, он говорит: «Я думаю, что они будут лежать в основе практически всего обучения с подкреплением».
19 ЯНВАРЯ 2021 Г.МЭТЬЮ ХАТСОН