• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Бакалаврская программа «Прикладная математика и информатика»

Обучение с подкреплением

2019/2020
Учебный год
RUS
Обучение ведется на русском языке
4
Кредиты
Статус:
Курс по выбору
Когда читается:
4-й курс, 3 модуль

Преподаватели


Фрицлер Александр Александрович


Швечиков Павел Дмитриевич

Программа дисциплины

Аннотация

Курс посвящен Обучению с Подкреплением (RL) - построению алгоритмов, которые изучают систему методом проб и ошибок. В отличие от традиционного машинного обучения, которому необходимо запоминать эталонные «лучшие» результаты, методы RL должны сначала определить, какие именно результаты являются "лучшими". Вместе мы прокачаем основы RL, изучим инженерные «хаки», используемые для решения реальных задач RL, изучим промышленные приложения и имеющиеся актуальные исследовательские работы. В курсе представлены самые разные приложения: от игр и робототехники до рекомендательных систем и машинного перевода. The course is dedicated to Reinforcement Learning (RL) - building algorithms that learn things by trial and error. Unlike traditional machine learning that needs to memorize reference "best" outputs, RL methods must first figure out which outputs are the best. Together we will grasp RL foundations, learn engineering “hacks” used to solve life-size RL problems, cover industrial applications and study net & hot research papers. The schedule features a variety of stuff from games and robotics to recommender systems and machine translation.
Цель освоения дисциплины

Цель освоения дисциплины

  • Основная цель освоения дисциплины «Обучение с подкреплением» – научиться использовать методы одноимённой области машинного обучения в практических и исследовательских задачах. Что не менее важно — научиться понимать границы применимости методов обучения с подкреплением и ситуации, когда лучше держаться от них подальше. Более детальную информацию интересующемуся студенту предлагается узнать со https://bit.ly/2HjLPnn.
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать: - Постановки задач обучения с подкреплением, их отличие от задач в других областях ML. - Формализмы MAB, MDP, POMDP - Основные value-based и policy-based алгоритмы обучения с подкреплением - Отличия между on-policy и off-policy обучением
  • Уметь: - Сводить прикладные задачи к формализму обучения с подкреплением - Реализовывать простейшие методы обучения с подкреплением для MDP - Масштабировать алгоритмы обучения с подкреплением с использованием моделей машинного обучения, в т.ч. линейных моделей и нейросетей
  • Владеть: - Формализмом уравнений Беллмана, фреймворком value-based методов - Навыками дифференцирования матожидания недифференцируемых функций по параметрам распределния аргумента.
  • Уметь: - Сводить прикладные задачи к формализму обучения с подкреплением - Реализовывать простейшие методы обучения с подкреплением для MDP - Масштабировать алгоритмы обучения с подкреплением с использованием моделей машинного обучения, в т.ч. линейных моделей и нейросетей
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Тема 1. Reinforcement learning problems; MDP; Crossentropy method
  • Тема 2. Value-based RL; Bellman equations; Value Iteraion; Policy Iteration
  • Тема 3. Model-free RL; Qlearning and SARSA; On- and Off-policy learning
  • Тема 4. Approximate RL; Deep Q-learning; training stability & tricks;
  • Тема 5. Exploration; Exploration in contextual bandits; Exporation & uncertainty
  • Тема 6. Policy-based methods; REINFORCE; Actor-critic; Value- vs Policy-based RL
  • Тема 7. Applications I: Reinforcement learning for Natural Language Processing
  • Тема 8. Applications II: Deep Architectures, Nearest Neighbor Search, etc.
  • Тема 9. RL in Partially Observable Markov Decision Processes;
  • Тема 10. Advanced policy-based methods: TRPO, PPO, DPG; Constrained RL
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание 1
  • неблокирующий Домашнее задание 2
  • неблокирующий Домашнее задание 3
  • неблокирующий Домашнее задание 4
  • неблокирующий Домашнее задание 5
    Итоговая оценка формируется из оценок домашних задний. Дополнительные технические требования отсутствую.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (3 модуль)
    0.2 * Домашнее задание 1 + 0.2 * Домашнее задание 2 + 0.2 * Домашнее задание 3 + 0.2 * Домашнее задание 4 + 0.2 * Домашнее задание 5
Список литературы

Список литературы

Рекомендуемая основная литература

  • Christopher M. Bishop. (n.d.). Australian National University Pattern Recognition and Machine Learning. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.EBA0C705

Рекомендуемая дополнительная литература

  • Hastie, T., Tibshirani, R., & Friedman, J. H. (2009). The Elements of Statistical Learning : Data Mining, Inference, and Prediction (Vol. Second edition, corrected 7th printing). New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=277008