• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Исследование среды с учетом награды окружения в обучении с подкреплением

ФИО студента: Мельцер Сергей Павлович

Руководитель: Новиков Борис Асенович

Кампус/факультет: Санкт-Петербургская школа физико-математических и компьютерных наук

Программа: Промышленное программирование (Магистратура)

Год защиты: 2021

В данной работе исследуется использование знания о распределении функции награды в среде для более эффективного исследования окружения агентом обучения с подкреплением. Для этого предлагается использовать один из возможных способов получения векторного представления состояний среды, а также байесовские методы приближения распределения функции награды. Исследования проводятся на десяти средах игр Atari в сравнении с существующими алгоритмами  Random Network Distillation и Intrinsic Curiosity Module. В половине окружений новый метод Intrinsic Bayesian Module демонстрирует свое превосходство.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ