• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Обучение с подкреплением по большому количеству человеческих демонстраций

ФИО студента: Сазанович Никита Валерьевич

Руководитель: Литвинов Юрий Викторович

Кампус/факультет: Санкт-Петербургская школа физико-математических и компьютерных наук

Программа: Прикладная математика и информатика (Бакалавриат)

Год защиты: 2019

Проблема эффективного использования опыта агента является ключевой в обучении с подкреплением. Многие недавние успехи в обучении с подкреплением требовали огромного объема опыта: OpenAI Five использовал более чем 11000 суммарного опыта игры в Dota 2. Одним из решений проблемы эффективного использования опыта является использование знаний людей в процессе обучения. Для этого используются траектории поведения людей, или демонстрации. В данной работе рассмотрен вопрос о влиянии количества демонстраций, представленных алгоритму обучения с подкреплением, на его процесс обучения. На примере, среды Dota 2 и алгоритма глубокого Q-обучения, исследован процесс обучения при использовании различного количества и разных методов объединения демонстраций. Предложен метод фильтрации демонстраций на основе равномерного заполнения пространства состояний. Результатом работы является наблюдение лучшей производительности при использовании ни одной, ни всех, а промежуточного числа демонстраций. Наша гипотеза состоит в том, что в нашем подходе существует баланс между разнообразностью и противоречивостью демонстраций. Практическая значимость работы в том, что в реализации нашего подхода, а возможно и в других алгоритмах обучения с подкреплением, нет необходимости в использовании и получении более нескольких десятков демонстраций. Ключевые слова: обучение с подкреплением, проблема эффективного использования опыта, неструктурированные демонстрации.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ