Разработка методов машинного обучения с подкреплением для управления робототехническими устройствами и виртуальными агентамиDevelopment of reinforcement learning methods to control robotic and virtual agents

Соискатель:

Сорокин Дмитрий Игоревич

Руководитель:

Львовский Александр Исаевич (др. работы под рук-вом)

Члены комитета:

Бурнаев Евгений Владимирович (Сколковский институт науки и технологий, д.ф.-м.н., доцент, председатель комитета), Гусев Глеб Геннадьевич (ПАО "Сбербанк", к.ф.-м.н., член комитета), Зайцев Алексей Алексеевич (Сколковский институт науки и технологий, к.ф.-м.н., член комитета), Лучников Илья Андреевич (ООО"Международный центр квантовой оптики и квантовых технологий", к.ф.-м.н., член комитета), Свительман Валентина Семеновна (Институт проблем безопасного развития атомной энергетики РАН, к.ф.-м.н., член комитета)

Диссертация принята к предварительному рассмотрению:

3/6/2023

Диссертация принята к защите:

3/29/2023

Дисс. совет:

Совет по компьютерным наукам

Дата защиты:

6/1/2023

В рамках данной диссертации сделан фокус на разработку методов, основанных на обучении с подкреплением, применимых для управления робототехническими устройствами. Современные методы глубокого обучения с подкреплением способны решать задачи управления в виртуальных средах без использования априорной информации о решаемой задаче. Обучение происходит путем проб и ошибок, в котором агент взаимодействует со средой и учится оптимизировать свои действия так, чтобы они приводили к большей ожидаемой награде. При применении таких методов для управления физическими устройствами возникает ряд сложностей, связанных с переносом из симуляции на физическую установку, использованием действий различного масштаба, сходимостью к суб-оптимальной стратегии и трудности с объединением нейросетевых и алгоритмических подходов. В работе предложен набор алгоритмов, которые позволяют выучить эффективную стратегию с учетом этих ограничений. Качество работы предложенных алгоритмов рассматривается на практически важных задачах, таких как настройка оптического интерферометра, управление движением шагающего робота и виртуальная среда NetHack.

Диссертация [*.pdf, 7.62 Мб] (дата размещения 3/17/2023)

Резюме [*.pdf, 1.96 Мб] (дата размещения 3/17/2023)

Summary [*.pdf, 1.95 Мб] (дата размещения 3/17/2023)

Публикации, в которых излагаются основные результаты диссертации

Hambro E., Mohanty S., ... Sorokin D., Sypetkowski M., Sypetkowski M. Insights From the NeurIPS 2021 NetHack Challenge (смотреть на сайте журнала)

Makarenko S., Sorokin D., Ulanov A., Lvovsky A.I. Aligning an optical interferometer with beam divergence control and continuous action space (смотреть на сайте журнала)

Sorokin D.I., Babaev D.L. Learning various locomotion skills from scratch with deep reinforcement learning (смотреть на сайте журнала)

Sorokin D., Ulanov A., Sazhina E., Lvovsky A. Interferobot: aligning an optical interferometer by a reinforcement learning agent (смотреть на сайте журнала)

Отзывы

Отзыв научного руководителя

Львовский Александр Исаевич (дата размещения 3/10/2023)

Отзыв члена Комитета

Бурнаев Евгений Владимирович (дата размещения 5/18/2023)
Свительман Валентина Семеновна (дата размещения 5/18/2023)
Лучников Илья Андреевич (дата размещения 5/18/2023)
Гусев Глеб Геннадьевич (дата размещения 5/18/2023)
Зайцев Алексей Алексеевич (дата размещения 5/18/2023)

Сведения о результатах защиты:

Комитет по диссертации рекомендовал присудить ученую степень кандидата наук с отличием (протокол №2 от 01.06.2023). Решением диссертационного совета (протокол №6 от 09.06.2023) присуждена ученая степень кандидата компьютерных наук с отличием.

Ключевые слова:

нейронные сети, обучение с подкреплением, роботика

См. на ту же тему

Методы глубинного обучения для предсказания Z-ДНК на основе омиксных данныхКандидатская диссертация

Соискатель: Бекназаров Назар Сохибжонович
Руководитель: Попцова Мария Сергеевна
Дата защиты: 4/24/2026

Методы мультиагентного обучения с подкреплением в условиях частичной наблюдаемости и динамических средКандидатская диссертация

Соискатель: Малышева Александра Ивановна
Руководитель: Суворова Алёна Владимировна
Дата защиты: 10/16/2025

Построение информационно-аналитических инструментов для организации оперативного геомониторинга опасных явленийКандидатская диссертация

Соискатель: Некрасов Глеб Александрович
Руководитель: Белов Александр Владимирович
Дата защиты: 10/16/2025