• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Подсистема модификации поведения неигровых персонажей на основе обучения с подкреплением

ФИО студента: Максименко Артемий Сергеевич

Руководитель: Максименкова Ольга Вениаминовна

Кампус/факультет: Факультет компьютерных наук

Программа: Системная и программная инженерия (Магистратура)

Год защиты: 2021

Постоянное развитие теории Искусственного Интеллекта и имитационной робототехники способствовало появлению различных практических решений в разрезе реального мира, основанных на моделях обучения как с "программной", так и с "физической" точек зрения, особенно характерных для области обучения с подкреплением. Для того чтобы преодолеть отсутствие идемпотентности и общую закрытость реального мира для обучения с подкреплением, было введена концепция симуляции среды, где сгенерированные визуальные образы и физическая модель становятся базовой истиной для моделей обучения, обеспечивая одновременно высокий уровень контроля, стабильность и потенциал для дальнейшего перехода к реальным сценариям. Сложность моделирования привела к тому, что исследования были ограничены доступностью концептуальных моделей для симуляционного обучения с подкреплением, что привело к появлению различных нишевых решений. В последнее десятилетие игровые симуляторы стали основной платформой для исследований в области обучения с подкреплением, чему способствовали такие системы, как AlphaGo и AlphaStar. Игровые среды позволили преодолеть ограничения “физических“ исследований, предоставив интерпретируемые сценарии симуляций, общую доступность решений и, что более важно, богатые инструменты для создания виртуальной среды с помощью 3D-движков. В данной работе мы предлагаем концептуальную и архитектурную модель фреймворка для симуляционного обучения с подкреплением, основанной на понятии двусторонней динамики, которая определяет модульность компонентов RL модели, предоставляя широкие средства по управлению средой и агентами. Рассматриваемый фреймворк ориентирован на поддержку последующего проектирования доступного инструментария для исследования и применения на практике решений на основе RL путем его интеграции с Unreal Engine 4 в качестве подсистемы модификации поведения неигровых персонажей. Предложенная модель двусторонней динамики оценивается через демонстрацию нескольких приложений RL-моделей с точки зрения симуляции и возможностей интеграции с внешними инструментами. Данное исследование выполнено в рамках исследований международной лаборатории интеллектуальных систем и структурного анализа ВШЭ по sandbox моделированию роботов-агентов, управляемых алгоритмами обучения с подкреплением.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ