Разработка методов машинного обучения с подкреплением для управления робототехническими устройствами и виртуальными агентамиDevelopment of reinforcement learning methods to control robotic and virtual agents
Соискатель:
Сорокин Дмитрий Игоревич
Руководитель:
Львовский Александр Исаевич (др. работы под рук-вом)
Члены комитета:
Бурнаев Евгений Владимирович (Сколковский институт науки и технологий, д.ф.-м.н., доцент, председатель комитета), Гусев Глеб Геннадьевич (ПАО "Сбербанк", к.ф.-м.н., член комитета), Зайцев Алексей Алексеевич (Сколковский институт науки и технологий, к.ф.-м.н., член комитета), Лучников Илья Андреевич (ООО"Международный центр квантовой оптики и квантовых технологий", к.ф.-м.н., член комитета), Свительман Валентина Семеновна (Институт проблем безопасного развития атомной энергетики РАН, к.ф.-м.н., член комитета)
Диссертация принята к предварительному рассмотрению:
3/6/2023
Диссертация принята к защите:
3/29/2023
Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
6/1/2023
В рамках данной диссертации сделан фокус на разработку методов, основанных на обучении с подкреплением, применимых для управления робототехническими устройствами. Современные методы глубокого обучения с подкреплением способны решать задачи управления в виртуальных средах без использования априорной информации о решаемой задаче. Обучение происходит путем проб и ошибок, в котором агент взаимодействует со средой и учится оптимизировать свои действия так, чтобы они приводили к большей ожидаемой награде. При применении таких методов для управления физическими устройствами возникает ряд сложностей, связанных с переносом из симуляции на физическую установку, использованием действий различного масштаба, сходимостью к суб-оптимальной стратегии и трудности с объединением нейросетевых и алгоритмических подходов. В работе предложен набор алгоритмов, которые позволяют выучить эффективную стратегию с учетом этих ограничений. Качество работы предложенных алгоритмов рассматривается на практически важных задачах, таких как настройка оптического интерферометра, управление движением шагающего робота и виртуальная среда NetHack.
Диссертация [*.pdf, 7.62 Мб] (дата размещения 3/17/2023)
Резюме [*.pdf, 1.96 Мб] (дата размещения 3/17/2023)
Summary [*.pdf, 1.95 Мб] (дата размещения 3/17/2023)
Публикации, в которых излагаются основные результаты диссертации
Hambro E., Mohanty S., ... Sorokin D., Sypetkowski M., Sypetkowski M. Insights From the NeurIPS 2021 NetHack Challenge (смотреть на сайте журнала)
Makarenko S., Sorokin D., Ulanov A., Lvovsky A.I. Aligning an optical interferometer with beam divergence control and continuous action space (смотреть на сайте журнала)
Sorokin D.I., Babaev D.L. Learning various locomotion skills from scratch with deep reinforcement learning (смотреть на сайте журнала)
Sorokin D., Ulanov A., Sazhina E., Lvovsky A. Interferobot: aligning an optical interferometer by a reinforcement learning agent (смотреть на сайте журнала)
Отзывы
Отзыв научного руководителя
- Львовский Александр Исаевич (дата размещения 3/10/2023)
Сведения о результатах защиты:
Комитет по диссертации рекомендовал присудить ученую степень кандидата наук с отличием (протокол №2 от 01.06.2023). Решением диссертационного совета (протокол №6 от 09.06.2023) присуждена ученая степень кандидата компьютерных наук с отличием.
Ключевые слова:
См. на ту же тему
Нейрокогнитивные механизмы социального влияния (на примере конформизма)Докторская диссертация
Соискатель: Ключарёв Василий Андреевич
Динамика обучения и ландшафт функции потерь нейронных сетей с масштабно-инвариантными параметрамиКандидатская диссертация
Соискатель: Кодрян Максим Станиславович
Руководитель: Ветров Дмитрий Петрович
Дата защиты: 1/23/2024
Модели и методы автоматической обработки неструктурированных данных в биомедицинской областиДокторская диссертация
Соискатель: Тутубалина Елена Викторовна
Дата защиты: 11/7/2023