Delivered at:: Joint Department with Yandex (Big Data and Information Retrieval School)

Course type:: Elective course

When:: 1 year, 3, 4 module

Instructor

Shvechikov, Pavel

Полная версия программы учебной дисциплины

Аннотация

Цель курса - ознакомление студентов с основными подходами и алгоритмами обучения с подкреплением. Планируется дать понимание того, какие существуют подходы к решению задач обучения с подкреплением, научить выбирать подход и алгоритм, наиболее подходящий для рассматриваемой студентом задачи, научить обучать модели с использованием современных нейросетевых библиотек.

Цель освоения дисциплины

уметь распознавать ситуации, в которых уместно применение методов обучения с подкреплением
уметь сформулировать задачу обучения с подкреплением и выбрать эффективный способ её решения
знать основные парадигмы обучения с подкреплением и границы их применимости
владеть методами теоретического исследования используемых алгоритмов
уметь достигать баланса между exploration и exploitation
знать что такое среда, состояние и агент в обучении с подкреплением
уметь выбирать архитектуру рекуррентной нейронной сети и обучать её
уметь применять различные трюки для ускорения и оптимизации обучения
уметь обучить по возможности оптимального агента для решения задачи, оценить его эффективность

Планируемые результаты обучения

знать что такое среда, состояние и агент в обучении с подкреплением
уметь сформулировать задачу обучения с подкреплением и выбрать эффективный способ её решения
уметь распознавать ситуации, в которых уместно применение методов обучения с подкреплением
уметь обучить по возможности оптимального агента для решения задачи, оценить его эффективность
знать основные парадигмы обучения с подкреплением и границы их применимости
владеть методами теоретического исследования используемых алгоритмов
уметь применять различные трюки для ускорения и оптимизации обучения
уметь достигать баланса между exploration и exploitation
уметь выбирать архитектуру рекуррентной нейронной сети и обучать её

Содержание учебной дисциплины

RL как blackbox optimization
Проблемы обучения с подкреплением вокруг нас. Decision processes. Stochastic optimization, Crossentropy method. Parameter space search vs action space search. Welcome into openai gym. Tabular CEM for Taxi-v0, deep CEM for box2d environments.
Value-based методы
"Discounted reward MDP. Value-based approach. Value iteration. Policy iteration. Discounted reward fails. Value iteration. "
Model-free методы
Q-learning. SARSA. Off-policy Vs on-policy algorithms. N-step algorithms. TD(Lambda). Qlearning Vs SARSA Vs Expected Value SARSA
Приближённое обучение с подкреплением
Infinite/continuous state space. Value function approximation. Convergence conditions. Multiple agents trick; experience replay, target networks, double/dueling/bootstrap DQN, etc. Approximate Q-learning with experience replay. (CartPole, Atari)
Exploration в обучении с подкреплением
Contextual bandits. Thompson Sampling, UCB, bayesian UCB. Exploration in model-based RL, MCTS. "Deep" heuristics for exploration. Вayesian exploration for contextual bandits. UCB for MCTS.
Policy gradient методы, часть 1
Motivation for policy-based, policy gradient, logderivative trick, REINFORCE/crossentropy method, variance reduction(baseline), advantage actor-critic (incl. GAE)
Рекуррентные нейронные сети
Problems with sequential data. Recurrent neural networks. Backprop through time. Vanishing & exploding gradients. LSTM, GRU. Gradient clipping
Partially observable MDPs
POMDP intro. POMDP learning (agents with memory). POMDP planning (POMCP, etc)
Приложения
Reinforcement Learning as a general way to optimize non-differentiable loss. G2P, machine translation, conversation models, image captioning, discrete GANs. Self-critical sequence training.
Policy gradient методы, часть 2
Trust region policy optimization. NPO/PPO. Deterministic policy gradient. DDPG. Bonus: DPG for discrete action spaces.

Элементы контроля

Домашнее задание
Домашнее задание
Экзамен
Оценка за дисциплину выставляется в соответствии с формулой оценивания от всех пройденных элементов контроля. Экзамен не проводится.

Промежуточная аттестация

Промежуточная аттестация (4 модуль)
0.3 * Домашнее задание + 0.3 * Домашнее задание + 0.4 * Экзамен

Master’s Programme 'Data Science'

Contacts

Reinforcement Learning

Instructor

Программа дисциплины

Аннотация

Цель освоения дисциплины

Планируемые результаты обучения

Содержание учебной дисциплины

Элементы контроля

Промежуточная аттестация

Список литературы

Рекомендуемая основная литература

Рекомендуемая дополнительная литература