• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Разработка методов машинного обучения с подкреплением для управления робототехническими устройствами и виртуальными агентамиDevelopment of reinforcement learning methods to control robotic and virtual agents

Соискатель:
Сорокин Дмитрий Игоревич
Руководитель:
Львовский Александр Исаевич (др. работы под рук-вом)
Члены комитета:
Бурнаев Евгений Владимирович (Сколковский институт науки и технологий, д.ф.-м.н., доцент, председатель комитета), Гусев Глеб Геннадьевич (ПАО "Сбербанк", к.ф.-м.н., член комитета), Зайцев Алексей Алексеевич (Сколковский институт науки и технологий, к.ф.-м.н., член комитета), Лучников Илья Андреевич (ООО"Международный центр квантовой оптики и квантовых технологий", к.ф.-м.н., член комитета), Свительман Валентина Семеновна (Институт проблем безопасного развития атомной энергетики РАН, к.ф.-м.н., член комитета)
Диссертация принята к предварительному рассмотрению:
3/6/2023
Диссертация принята к защите:
3/29/2023
Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
6/1/2023
В рамках данной диссертации сделан фокус на разработку методов, основанных на обучении с подкреплением, применимых для управления робототехническими устройствами. Современные методы глубокого обучения с подкреплением способны решать задачи  управления в виртуальных средах без использования априорной информации о решаемой задаче. Обучение происходит путем проб и ошибок, в котором агент взаимодействует со средой и учится оптимизировать свои действия так, чтобы они приводили к большей ожидаемой награде. При применении таких методов для управления физическими устройствами возникает ряд сложностей, связанных с переносом из симуляции на физическую установку, использованием действий различного масштаба, сходимостью к суб-оптимальной стратегии и трудности с объединением нейросетевых и алгоритмических подходов. В работе предложен набор алгоритмов, которые позволяют выучить эффективную стратегию с учетом этих ограничений. Качество работы предложенных алгоритмов рассматривается на практически важных задачах, таких как настройка оптического интерферометра, управление движением шагающего робота и виртуальная среда NetHack.
Диссертация [*.pdf, 7.62 Мб] (дата размещения 3/17/2023)
Резюме [*.pdf, 1.96 Мб] (дата размещения 3/17/2023)
Summary [*.pdf, 1.95 Мб] (дата размещения 3/17/2023)

Публикации, в которых излагаются основные результаты диссертации



Отзывы
Отзыв научного руководителя
Сведения о результатах защиты:
Комитет по диссертации рекомендовал присудить ученую степень кандидата наук с отличием (протокол №2 от 01.06.2023). Решением диссертационного совета (протокол №6 от 09.06.2023) присуждена ученая степень кандидата компьютерных наук с отличием.