• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Reinforcement Learning

2019/2020
Academic Year
RUS
Instruction in Russian
6
ECTS credits
Course type:
Elective course
When:
1 year, 3, 4 module

Instructor


Shvechikov, Pavel

Программа дисциплины

Аннотация

Цель курса - ознакомление студентов с основными подходами и алгоритмами обучения с подкреплением. Планируется дать понимание того, какие существуют подходы к решению задач обучения с подкреплением, научить выбирать подход и алгоритм, наиболее подходящий для рассматриваемой студентом задачи, научить обучать модели с использованием современных нейросетевых библиотек.
Цель освоения дисциплины

Цель освоения дисциплины

  • уметь распознавать ситуации, в которых уместно применение методов обучения с подкреплением
  • уметь сформулировать задачу обучения с подкреплением и выбрать эффективный способ её решения
  • знать основные парадигмы обучения с подкреплением и границы их применимости
  • владеть методами теоретического исследования используемых алгоритмов
  • уметь достигать баланса между exploration и exploitation
  • знать что такое среда, состояние и агент в обучении с подкреплением
  • уметь выбирать архитектуру рекуррентной нейронной сети и обучать её
  • уметь применять различные трюки для ускорения и оптимизации обучения
  • уметь обучить по возможности оптимального агента для решения задачи, оценить его эффективность
Планируемые результаты обучения

Планируемые результаты обучения

  • знать что такое среда, состояние и агент в обучении с подкреплением
  • уметь сформулировать задачу обучения с подкреплением и выбрать эффективный способ её решения
  • уметь распознавать ситуации, в которых уместно применение методов обучения с подкреплением
  • уметь обучить по возможности оптимального агента для решения задачи, оценить его эффективность
  • знать основные парадигмы обучения с подкреплением и границы их применимости
  • владеть методами теоретического исследования используемых алгоритмов
  • уметь применять различные трюки для ускорения и оптимизации обучения
  • уметь достигать баланса между exploration и exploitation
  • уметь выбирать архитектуру рекуррентной нейронной сети и обучать её
Содержание учебной дисциплины

Содержание учебной дисциплины

  • RL как blackbox optimization
    Проблемы обучения с подкреплением вокруг нас. Decision processes. Stochastic optimization, Crossentropy method. Parameter space search vs action space search. Welcome into openai gym. Tabular CEM for Taxi-v0, deep CEM for box2d environments.
  • Value-based методы
    "Discounted reward MDP. Value-based approach. Value iteration. Policy iteration. Discounted reward fails. Value iteration. "
  • Model-free методы
    Q-learning. SARSA. Off-policy Vs on-policy algorithms. N-step algorithms. TD(Lambda). Qlearning Vs SARSA Vs Expected Value SARSA
  • Приближённое обучение с подкреплением
    Infinite/continuous state space. Value function approximation. Convergence conditions. Multiple agents trick; experience replay, target networks, double/dueling/bootstrap DQN, etc. Approximate Q-learning with experience replay. (CartPole, Atari)
  • Exploration в обучении с подкреплением
    Contextual bandits. Thompson Sampling, UCB, bayesian UCB. Exploration in model-based RL, MCTS. "Deep" heuristics for exploration. Вayesian exploration for contextual bandits. UCB for MCTS.
  • Policy gradient методы, часть 1
    Motivation for policy-based, policy gradient, logderivative trick, REINFORCE/crossentropy method, variance reduction(baseline), advantage actor-critic (incl. GAE)
  • Рекуррентные нейронные сети
    Problems with sequential data. Recurrent neural networks. Backprop through time. Vanishing & exploding gradients. LSTM, GRU. Gradient clipping
  • Partially observable MDPs
    POMDP intro. POMDP learning (agents with memory). POMDP planning (POMCP, etc)
  • Приложения
    Reinforcement Learning as a general way to optimize non-differentiable loss. G2P, machine translation, conversation models, image captioning, discrete GANs. Self-critical sequence training.
  • Policy gradient методы, часть 2
    Trust region policy optimization. NPO/PPO. Deterministic policy gradient. DDPG. Bonus: DPG for discrete action spaces.
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание
  • неблокирующий Домашнее задание
  • неблокирующий Экзамен
    Оценка за дисциплину выставляется в соответствии с формулой оценивания от всех пройденных элементов контроля. Экзамен не проводится.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.3 * Домашнее задание + 0.3 * Домашнее задание + 0.4 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Andrea Mechelli, & Sandra Vieira. (2019). Machine Learning : Methods and Applications to Brain Disorders. [N.p.]: Academic Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2118707

Рекомендуемая дополнительная литература

  • Géron, A. (2017). Hands-On Machine Learning with Scikit-Learn and TensorFlow : Concepts, Tools, and Techniques to Build Intelligent Systems (Vol. First edition). Sebastopol, CA: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1486117
  • Nandy, A., & Biswas, M. (2018). Reinforcement Learning : With Open AI, TensorFlow and Keras Using Python. [Berkeley, CA]: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1651811