Алгоритм обучения с подкреплением DQN от компании DeepMind.

В дипломной работе реализован алгоритм
обучения с подкреплением DQN от компании
DeepMind, после чего по данному алгоритму
успешно обучен Агент для игры RiverRaid в
среде OpenAI Gym

Description

Что такое алгоритмы обучения с подкреплением?

Обучение с подкреплением (RL) — это область машинного обучения, связанная с тем, как интеллектуальные агенты должны действовать в окружающей среде, чтобы максимизировать понятие кумулятивного вознаграждения . Обучение с подкреплением — это одна из трех основных парадигм машинного обучения, наряду с обучением с учителем и обучением без учителя.

Что такое тренажерный зал OpenAI
OpenAI Gym — это библиотека с открытым исходным кодом, которая обеспечивает простую настройку и набор инструментов, включающий широкий спектр имитируемых сред. Эти смоделированные среды варьируются от очень простых игр (понг) до сложных игровых движков, основанных на физике. Эти среды позволяют быстро настроить и обучить алгоритмы обучения с подкреплением.

Тренажерный зал также можно использовать в качестве эталона для алгоритмов обучения с подкреплением. Каждая среда в наборе инструментов OpenAI Gym содержит версию, удобную для сравнения и воспроизведения результатов при тестировании алгоритмов. Эти среды имеют настройки на основе эпизодов для выполнения обучения с подкреплением, где опыт агента далее делится на серию эпизодов. Этот инструментарий также предоставляет стандартный API для взаимодействия со средами, связанными с обучением с подкреплением. Он также совместим с другими вычислительными библиотеками, такими как TensorFlow. Первоначальный выпуск OpenAI Gym состоит из более чем 1000 сред для выполнения различных категорий задач.

Ключевая терминология
Чтобы понять OpenAI Gym и эффективно использовать его для обучения с подкреплением, крайне важно понять ключевые концепции.

Обучение с подкреплением
Прежде чем погрузиться в OpenAI Gym, важно понять основы обучения с подкреплением. При обучении с подкреплением агент выполняет последовательность действий в неопределенной и часто сложной среде с целью максимизации функции вознаграждения. По сути, это подход к принятию правильных решений в игровой среде, который максимизирует вознаграждение и минимизирует штрафы. Обратная связь от собственных действий и опыта позволяет агенту изучить наиболее подходящее действие методом проб и ошибок. Как правило, обучение с подкреплением включает следующие этапы:

Наблюдение за окружающей средой
Формулирование решения на основе определенной стратегии
Действия
Получение награды или штрафа
Изучение опыта для улучшения стратегии
Итерация процесса до достижения оптимальной стратегии
Например, беспилотный автомобиль должен обеспечивать безопасность пассажиров, соблюдая ограничения скорости и правила дорожного движения. Агент (воображаемый водитель) мотивирован вознаграждением; для обеспечения максимальной безопасности пассажиров, и будет учиться на своем опыте в окружающей среде. Награды за правильные действия и штрафы за неправильные действия разработаны и определены. Чтобы гарантировать, что агент соблюдает ограничение скорости и правила дорожного движения, необходимо учитывать следующие моменты:

Агент должен получить положительное вознаграждение за успешное соблюдение ограничения скорости, так как это необходимо для безопасности пассажиров.
Агент должен быть оштрафован, если он превышает желаемый предел скорости или едет налегке. Например, агент может получить незначительное отрицательное вознаграждение за перемещение автомобиля до окончания обратного отсчета (сигнал светофора по-прежнему красный).

Агент
В обучении с подкреплением агент — это сущность, которая принимает решение о том, какие действия предпринять, на основе вознаграждений и наказаний. Для принятия решения агенту разрешается использовать наблюдения из окружающей среды. Обычно он ожидает, что текущее состояние будет предоставлено средой и что это состояние будет иметь марковское свойство. Затем он обрабатывает это состояние, используя функцию политики, которая решает, какое действие предпринять. В OpenAI Gym термин «агент» является неотъемлемой частью обучения с подкреплением. Короче говоря, агент описывает, как запустить алгоритм обучения с подкреплением в среде тренажерного зала. Агент может либо содержать алгоритм, либо обеспечивать интеграцию, необходимую для алгоритма и среды OpenAI Gym.

Окружающая среда
В Gym среда — это симуляция, представляющая задачу или игру, в которой работает агент. Когда агент выполняет действие в среде, он получает наблюдения из среды, которые состоят из вознаграждения за это действие. Эта награда информирует агента о том, насколько хорошим или плохим было действие. Наблюдение сообщает агенту, каково его следующее состояние в окружающей среде. Таким образом, путем проб и ошибок агент пытается выяснить оптимальное поведение в окружающей среде, чтобы наилучшим образом выполнить свою задачу. Одной из сильных сторон OpenAI Gym является множество готовых сред, предназначенных для обучения алгоритмов обучения с подкреплением. Возможно, вы захотите просмотреть обширный список сред , доступных в наборе инструментов Gym.

Наблюдения за тренажерным залом OpenAI
Если вы хотите, чтобы ваши задачи обучения с подкреплением выполнялись лучше, чем если бы вы просто выполняли случайные действия на каждом этапе, вам следует знать, какие действия доступны в среде. Это:

Наблюдение (объект) : объект, относящийся к среде, представляет собой наблюдение за окружающей средой. Например, пиксельные данные с камеры.

Вознаграждение (плавающее) : вознаграждение — это скалярная величина, предоставляемая агенту в форме обратной связи для управления процессом обучения. Основная цель агента состоит в том, чтобы максимизировать сумму вознаграждения, а сигнал вознаграждения указывает на производительность агента на любом заданном этапе. Например, в игре Atari сигнал вознаграждения может привести к +1 за каждый случай увеличения счета или -1 при уменьшении счета.

Готово (логическое) : в основном используется, когда требуется сбросить настройки среды. В этом процессе большинство задач разбивается на четко определенные объекты, а True является индикатором завершенного эпизода. Например, в игре Atari Pong, если вы потеряли мяч, эпизод завершается, и вы получаете «Done = True».

Info (dict) : Это полезно для целей отладки. Например, на этапе обучения модели могут быть необработанные вероятности того, когда состояние среды изменилось в последний раз. Однако вы должны знать, что официальная оценка агента не может использовать это для обучения. Это случай «петли агент-среда». На каждом временном шаге агент выбирает действие, а среда возвращает наблюдение и вознаграждение. Этот процесс начинается с вызова reset(), который возвращает исходное наблюдение.

Если у Вас появилась заинтересованность в данной нейронной сети, и она может помочь Вам в реализации Ваших бизнес и других технических задачах, пожалуйста отправьте заявку на email info@ai2b.ru , или позвоните по телефону 8(495)661-61-09

 

 

Reviews

There are no reviews yet.

Be the first to review “Алгоритм обучения с подкреплением DQN от компании DeepMind.”

Ваш адрес email не будет опубликован. Обязательные поля помечены *