Мета-обучение с подкреплением

ФИО студента: Конобеев Михаил Семенович

Руководитель: Беломестный Денис Витальевич

Кампус/факультет: Факультет компьютерных наук

Программа: Статистическая теория обучения (Магистратура)

Год защиты: 2020

В работе рассматривается задача мета-обучения с двух различных перспектив. В первой части изучается мета обучение линейной регрессии с детерминистичными признаками объектов и доказываются нижние и верхние оценки для среднеквадратичного риска. Во второй части рассматривается мета-обучение путем автоматического выбора нейронных архитектур. Обе части работы являются релевантными для задач обучения с подкреплением: первая часть дает теоретическое основание для дальнейшего исследования аппроксимации функций ценностей, в то время как вторая исследует метод подбора архитектуры нейронных сетей с учетом особенностей данного раздела машинного обучения. В мета-обучении линейной регрессии исследуется статистическая модель предложенная Baxter [2000] и доказывается зависящая от параметров модели нижняя оценка риска на тестовой задаче мета-обучения, применимая ко всем алгоритмам. Эта нижняя оценка показывает, что не существует алгоритма мета-обучения, стремящегося к регрессионной функции при числе задач в обучаемой выборке $n\to\infty$, если число примеров для тестовой задачи остается фиксированным. В тоже время, в неасимптотическом режиме, при достаточно большом числе задач, мета-обучение может быть значительно лучше по сравнению с обучением на одной задаче. Исходя из этого разрабатывается алгоритм, основанный на оценке максимального правдоподобия, достигающий нижней границы без учета константы. Наконец, рассматривается практическая адаптация оптимальной процедуры, основанная на ЕМ-алгоритме. С точки зрения подбора архитектур нейронных сетей необходимо заметить, что значительный прогресс в различных областях машинного обучения, таких как машинное зрение и обработка естественного языка, произошел за счет использования более сложных нейронных архитектур. В тоже время, в области обучения с подкреплением в ходе исследований преимущественно использовались простые модели. Исходя из этого в работе используется автоматизированный метод поиска архитектура, для обнаружения новых архитектур в наборе сред Atari 2600. Показывается, как использование более сложных более сложных архитектур может привести к достижению больших наград в задачах обучения с подкреплением.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ