• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Улучшение стабильности и перенос знаний в глубинном обучении с подкреплением

ФИО студента: Никишин Евгений Сергеевич

Руководитель: Ветров Дмитрий Петрович

Кампус/факультет: Факультет компьютерных наук

Программа: Статистическая теория обучения (Магистратура)

Год защиты: 2019

За последние годы методы глубинного обучения с подкреплением продемонстрировали свою применимость в самых различных приложениях. Тем не менее, эти методы по-прежнему долгой отладки, недостаточно устойчивы к выбору гиперпараметров и с трудом обобщаются на другие среды. В данной дипломной работе исследуются две важные проблемы совмеменных методов глубинного обучения с подкреплением, которые мешают их широкому практическому применению: нестабильность обучения и плохая обобщающая способность обученных агентов. По ходу обучения суммарные награды ведут себя нестабильно и не увеличиваются монотонно при добавлении итераций метода оптимизации. Более того, агент, достигающий высоких суммарных наград, может забыть выученную политику. Эти проблемы обусловлены фундаментальным присутствием шума в оценках на градиенты, возникающие в контексте обучения с подкреплением. Чтобы уменьшить влияние шума на обучение, в данной работе предлагается применить стохастическое усреднение весов, метод, усредняющий веса, встречаемые во время работы метода оптимизации. На наборах сред Atari и MuJoCo демонстрируется, что стохастическое усреднение весов стабилизирует обучение, уменьшает проблему забывания выученных политик и улучшает средние суммарные награды. Далее отмечается, что обученных представления для наблюдений часто чрезмерно специализируются на конкретной среде и оказываются бесполезными в других средах, даже если среды похожи с точки зрения физического смысла. Для того, чтобы использовать обученную в одной среде политику для другой среды, предлагается нейросетевая архитектура, основанная на вариационном автокодировщике. Данная архитектура осуществляет преобразование пары из наблюдения и последующего наблюдения в соответствующие скрытые представления с помощью моделирования динамики в скрытом пространстве. Для похожих с точки зрения физического смысла сред предлагается использовать одну и ту же динамику над латентными представлениями, что позволят обучить единой скрытое пространство для двух сред. Далее предлагается обучать политику над скрытыми представлениями, которая была бы похожа на оптимальную политику в исходной среде. Из-за того, что скрытое пространство едино, обученную политику можно применять для обеих сред. В предварительных экспериментах демонстрируется, что предложенная модель способна имитировать обученную политику, также достигая оптимальных наград, а также восстанавливать наблюдения и последующие наблюдения для исходных и целевых сред с использованием одной и той же нейросети динамики над скрытыми представлениями.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ