• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2020/2021

Обучение с подкреплением

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Направление: 01.03.02. Прикладная математика и информатика
Когда читается: 4-й курс, 3 модуль
Формат изучения: без онлайн-курса
Преподаватели: Бабенко Артем Валерьевич, Швечиков Павел Дмитриевич
Язык: русский
Кредиты: 4
Контактные часы: 44

Программа дисциплины

Аннотация

Курс посвящен Обучению с Подкреплением (RL) - построению алгоритмов, которые изучают систему методом проб и ошибок. В отличие от традиционного машинного обучения, которому необходимо запоминать эталонные «лучшие» результаты, методы RL должны сначала определить, какие именно результаты являются "лучшими". Вместе мы прокачаем основы RL, изучим инженерные «хаки», используемые для решения реальных задач RL, изучим промышленные приложения и имеющиеся актуальные исследовательские работы. В курсе представлены самые разные приложения: от игр и робототехники до рекомендательных систем и машинного перевода. The course is dedicated to Reinforcement Learning (RL) - building algorithms that learn things by trial and error. Unlike traditional machine learning that needs to memorize reference "best" outputs, RL methods must first figure out which outputs are the best. Together we will grasp RL foundations, learn engineering “hacks” used to solve life-size RL problems, cover industrial applications and study net & hot research papers. The schedule features a variety of stuff from games and robotics to recommender systems and machine translation.
Цель освоения дисциплины

Цель освоения дисциплины

  • Основная цель освоения дисциплины «Обучение с подкреплением» – научиться использовать методы одноимённой области машинного обучения в практических и исследовательских задачах. Что не менее важно — научиться понимать границы применимости методов обучения с подкреплением и ситуации, когда лучше держаться от них подальше. Более детальную информацию интересующемуся студенту предлагается узнать со https://bit.ly/2HjLPnn.
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать: - Постановки задач обучения с подкреплением, их отличие от задач в других областях ML. - Формализмы MAB, MDP, POMDP - Основные value-based и policy-based алгоритмы обучения с подкреплением - Отличия между on-policy и off-policy обучением
  • Уметь: - Сводить прикладные задачи к формализму обучения с подкреплением - Реализовывать простейшие методы обучения с подкреплением для MDP - Масштабировать алгоритмы обучения с подкреплением с использованием моделей машинного обучения, в т.ч. линейных моделей и нейросетей
  • Владеть: - Формализмом уравнений Беллмана, фреймворком value-based методов - Навыками дифференцирования матожидания недифференцируемых функций по параметрам распределния аргумента.
  • Уметь: - Сводить прикладные задачи к формализму обучения с подкреплением - Реализовывать простейшие методы обучения с подкреплением для MDP - Масштабировать алгоритмы обучения с подкреплением с использованием моделей машинного обучения, в т.ч. линейных моделей и нейросетей
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Тема 1. Reinforcement learning problems; MDP; Crossentropy method
  • Тема 2. Value-based RL; Bellman equations; Value Iteraion; Policy Iteration
  • Тема 3. Model-free RL; Qlearning and SARSA; On- and Off-policy learning
  • Тема 4. Approximate RL; Deep Q-learning; training stability & tricks;
  • Тема 5. Exploration; Exploration in contextual bandits; Exporation & uncertainty
  • Тема 6. Policy-based methods; REINFORCE; Actor-critic; Value- vs Policy-based RL
  • Тема 7. Applications I: Reinforcement learning for Natural Language Processing
  • Тема 8. Applications II: Deep Architectures, Nearest Neighbor Search, etc.
  • Тема 9. RL in Partially Observable Markov Decision Processes;
  • Тема 10. Advanced policy-based methods: TRPO, PPO, DPG; Constrained RL
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание 1
  • неблокирующий Домашнее задание 2
  • неблокирующий Домашнее задание 3
  • неблокирующий Домашнее задание 4
  • неблокирующий Домашнее задание 5
    Итоговая оценка формируется из оценок домашних задний. Дополнительные технические требования отсутствую.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (3 модуль)
    0.2 * Домашнее задание 1 + 0.2 * Домашнее задание 2 + 0.2 * Домашнее задание 3 + 0.2 * Домашнее задание 4 + 0.2 * Домашнее задание 5
Список литературы

Список литературы

Рекомендуемая основная литература

  • Christopher M. Bishop. (n.d.). Australian National University Pattern Recognition and Machine Learning. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.EBA0C705

Рекомендуемая дополнительная литература

  • Hastie, T., Tibshirani, R., & Friedman, J. H. (2009). The Elements of Statistical Learning : Data Mining, Inference, and Prediction (Vol. Second edition, corrected 7th printing). New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=277008