Обучение с подкреплением

Бакалавриат 2020/2021

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»

Лучший по критерию «Новизна полученных знаний»

Статус: Курс по выбору (Прикладная математика и информатика)

Направление: 01.03.02. Прикладная математика и информатика

Кто читает: Департамент больших данных и информационного поиска

Где читается: Факультет компьютерных наук

Когда читается: 4-й курс, 3 модуль

Формат изучения: без онлайн-курса

Преподаватели: Бабенко Артем Валерьевич, Швечиков Павел Дмитриевич

Язык: русский

Кредиты: 4

Контактные часы: 44

Дополнительные материалы в LMS Задать вопрос

Аннотация

Курс посвящен Обучению с Подкреплением (RL) - построению алгоритмов, которые изучают систему методом проб и ошибок. В отличие от традиционного машинного обучения, которому необходимо запоминать эталонные «лучшие» результаты, методы RL должны сначала определить, какие именно результаты являются "лучшими". Вместе мы прокачаем основы RL, изучим инженерные «хаки», используемые для решения реальных задач RL, изучим промышленные приложения и имеющиеся актуальные исследовательские работы. В курсе представлены самые разные приложения: от игр и робототехники до рекомендательных систем и машинного перевода. The course is dedicated to Reinforcement Learning (RL) - building algorithms that learn things by trial and error. Unlike traditional machine learning that needs to memorize reference "best" outputs, RL methods must first figure out which outputs are the best. Together we will grasp RL foundations, learn engineering “hacks” used to solve life-size RL problems, cover industrial applications and study net & hot research papers. The schedule features a variety of stuff from games and robotics to recommender systems and machine translation.

Цель освоения дисциплины

Основная цель освоения дисциплины «Обучение с подкреплением» – научиться использовать методы одноимённой области машинного обучения в практических и исследовательских задачах. Что не менее важно — научиться понимать границы применимости методов обучения с подкреплением и ситуации, когда лучше держаться от них подальше. Более детальную информацию интересующемуся студенту предлагается узнать со https://bit.ly/2HjLPnn.

Планируемые результаты обучения

Знать: - Постановки задач обучения с подкреплением, их отличие от задач в других областях ML. - Формализмы MAB, MDP, POMDP - Основные value-based и policy-based алгоритмы обучения с подкреплением - Отличия между on-policy и off-policy обучением
Уметь: - Сводить прикладные задачи к формализму обучения с подкреплением - Реализовывать простейшие методы обучения с подкреплением для MDP - Масштабировать алгоритмы обучения с подкреплением с использованием моделей машинного обучения, в т.ч. линейных моделей и нейросетей
Владеть: - Формализмом уравнений Беллмана, фреймворком value-based методов - Навыками дифференцирования матожидания недифференцируемых функций по параметрам распределния аргумента.
Уметь: - Сводить прикладные задачи к формализму обучения с подкреплением - Реализовывать простейшие методы обучения с подкреплением для MDP - Масштабировать алгоритмы обучения с подкреплением с использованием моделей машинного обучения, в т.ч. линейных моделей и нейросетей

Содержание учебной дисциплины

Тема 1. Reinforcement learning problems; MDP; Crossentropy method
Тема 2. Value-based RL; Bellman equations; Value Iteraion; Policy Iteration
Тема 3. Model-free RL; Qlearning and SARSA; On- and Off-policy learning
Тема 4. Approximate RL; Deep Q-learning; training stability & tricks;
Тема 5. Exploration; Exploration in contextual bandits; Exporation & uncertainty
Тема 6. Policy-based methods; REINFORCE; Actor-critic; Value- vs Policy-based RL
Тема 7. Applications I: Reinforcement learning for Natural Language Processing
Тема 8. Applications II: Deep Architectures, Nearest Neighbor Search, etc.
Тема 9. RL in Partially Observable Markov Decision Processes;
Тема 10. Advanced policy-based methods: TRPO, PPO, DPG; Constrained RL

Элементы контроля

Домашнее задание 1
Домашнее задание 2
Домашнее задание 3
Домашнее задание 4
Домашнее задание 5
Итоговая оценка формируется из оценок домашних задний. Дополнительные технические требования отсутствую.

Промежуточная аттестация

Промежуточная аттестация (3 модуль)
0.2 * Домашнее задание 1 + 0.2 * Домашнее задание 2 + 0.2 * Домашнее задание 3 + 0.2 * Домашнее задание 4 + 0.2 * Домашнее задание 5

Программа дисциплины