• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
ФИО студента
Название работы
Руководитель
Факультет
Программа
Оценка
Год защиты
Акимов Дмитрий Евгеньевич
Deep Reinforcement Learning in Vizdoom FPS
Науки о данных
(Магистратура)
9
2018
In this work we study the effect of combining existent improvements for DQN in MDP setting in POMDP setting.

Combinations of several heuristic such as Distributional Learning and Dueling architectures etc improvements for MDP is well-studied and works much better than vanilla DQN, which explains why this combination is so popular. However, no one tried to combine these improvements for partially observable processes before. Instead, for partially observable processes, model-based approach is more popular. It is obvious that model-based agent development is harder and resulting

agent will not be as universal as model-free. We proposed a new combination method of simple DQN extensions and develop a new model-free reinforcement learning agent, which works with partially observable processes and joined well-studied improvements from fully observable processes.

To test our agent we choose VizDoom environment, which is old but advanced in terms of gameplay first person shooter with many scenarios. VizDoom provided API which allow researchers to interact with environment and train autonomous agents.

We develop several agents for following scenarios in VizDoom FPS: Basic, Defend The Center, Health Gathering. We prove that improvements used in MDP setting may be used in POMDP setting as well and our combined

agents can converge to better policies. We develop an agent with

combination of several improvements showing superior

game performance in practice. We compare our agent with

DRQN with Prioritized Experience Replay and Snaphot Ensembling agent (Schulze et al, 2018)

and get approximately triple

increase in per episode reward.

We believe that our agent may be improved further with model-based methods as well as serve as back-bone to more sophisticated method to play different VizDoom scenarios.

Keywords: deep reinforcement learning, neural networks, first person shooter, VizDoom.
Текст работы (работа добавлена 28 мая 2018г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Расширенный поиск ВКР