• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Обучение с подкреплением с использованием распределений наград и энтропийной регуляризацией

ФИО студента: Конобеев Михаил Семенович

Руководитель: Швечиков Павел Дмитриевич

Кампус/факультет: Факультет компьютерных наук

Программа: Прикладная математика и информатика (Бакалавриат)

Год защиты: 2018

Обучение распределений суммарных наград в задаче обучения с подкреплением показывает значительное улучшение итоговых политик по сравнению с обычными методами обучения Q-функции. Тем не менее не до конца объяснено, почему такое улучшение происходит. Мы анализируем алгоритмы, обучающие распределения, с помощью энтропийно-регуляризованного подхода, с использованием которого выучиваются недетерминистичные политики, и возникают несколько полезных связей между value-based и policy-based семействами методов. На основе анализа предлагается метод, комбинирующий преимущества off-policy обучения распределения и более стабильного и простого в применении on-policy обучения. Данный метод демонстрирует улучшенную скорость сходимости (относительно числа взаимодействий), а также более высокую итоговую награду обученных агентов.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ