• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Бакалаврская программа «Прикладная математика и информатика»

Обучение с подкреплением

2021/2022
Учебный год
RUS
Обучение ведется на русском языке
4
Кредиты
Статус:
Курс по выбору
Когда читается:
4-й курс, 3 модуль

Преподаватели


Темирчев Павел Георгиевич


Фрицлер Александр Александрович

Программа дисциплины

Аннотация

Курс посвящен Обучению с Подкреплением (RL) - построению алгоритмов, которые изучают систему методом проб и ошибок. В отличие от традиционного машинного обучения, которому необходимо запоминать эталонные «лучшие» результаты, методы RL должны сначала определить, какие именно результаты являются "лучшими". Вместе мы прокачаем основы RL, изучим инженерные «хаки», используемые для решения реальных задач RL, изучим промышленные приложения и имеющиеся актуальные исследовательские работы. В курсе представлены самые разные приложения: от игр и робототехники до рекомендательных систем и машинного перевода. The course is dedicated to Reinforcement Learning (RL) - building algorithms that learn things by trial and error. Unlike traditional machine learning that needs to memorize reference "best" outputs, RL methods must first figure out which outputs are the best. Together we will grasp RL foundations, learn engineering “hacks” used to solve life-size RL problems, cover industrial applications and study net & hot research papers. The schedule features a variety of stuff from games and robotics to recommender systems and machine translation.
Цель освоения дисциплины

Цель освоения дисциплины

  • Основная цель освоения дисциплины «Обучение с подкреплением» – научиться использовать методы одноимённой области машинного обучения в практических и исследовательских задачах. Что не менее важно — научиться понимать границы применимости методов обучения с подкреплением и ситуации, когда лучше держаться от них подальше. Более детальную информацию интересующемуся студенту предлагается узнать со https://bit.ly/2HjLPnn.
Планируемые результаты обучения

Планируемые результаты обучения

  • Владеть: - Формализмом уравнений Беллмана, фреймворком value-based методов - Навыками дифференцирования матожидания недифференцируемых функций по параметрам распределния аргумента.
  • Владеть: - Формализмом уравнений Беллмана, фреймворком value-based методов - Навыками дифференцирования матожидания недифференцируемых функций по параметрам распределния аргумента.
  • Знать: - Постановки задач обучения с подкреплением, их отличие от задач в других областях ML. - Формализмы MAB, MDP, POMDP - Основные value-based и policy-based алгоритмы обучения с подкреплением - Отличия между on-policy и off-policy обучением
  • Знать: - Постановки задач обучения с подкреплением, их отличие от задач в других областях ML. - Формализмы MAB, MDP, POMDP - Основные value-based и policy-based алгоритмы обучения с подкреплением - Отличия между on-policy и off-policy обучением
  • Уметь: - Сводить прикладные задачи к формализму обучения с подкреплением - Реализовывать простейшие методы обучения с подкреплением для MDP - Масштабировать алгоритмы обучения с подкреплением с использованием моделей машинного обучения, в т.ч. линейных моделей и нейросетей
  • Уметь: - Сводить прикладные задачи к формализму обучения с подкреплением - Реализовывать простейшие методы обучения с подкреплением для MDP - Масштабировать алгоритмы обучения с подкреплением с использованием моделей машинного обучения, в т.ч. линейных моделей и нейросетей
  • Приобретение опыта написания и отладки обучения RL-алгоритмов
  • Умение сформулировать задачу в терминах RL
  • Научить программу играть в Atari лучше чем человек
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Тема 1. Reinforcement learning problems; MDP; Crossentropy method
  • Тема 2. Value-based RL; Bellman equations; Value Iteraion; Policy Iteration
  • Тема 3. Model-free RL; Qlearning and SARSA; On- and Off-policy learning
  • Тема 4. Approximate RL; Deep Q-learning; training stability & tricks;
  • Тема 5. Exploration; Exploration in contextual bandits; Exporation & uncertainty
  • Тема 6. Policy-based methods; REINFORCE; Actor-critic; Value- vs Policy-based RL
  • Тема 7. Applications I: Reinforcement learning for Natural Language Processing
  • Тема 8. Applications II: Deep Architectures, Nearest Neighbor Search, etc.
  • Тема 9. RL in Partially Observable Markov Decision Processes;
  • Тема 10. Advanced policy-based methods: TRPO, PPO, DPG; Constrained RL
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание 1
  • неблокирующий Домашнее задание 2
  • неблокирующий Домашнее задание 3
  • неблокирующий Домашнее задание 4
  • неблокирующий Домашнее задание 5
    Итоговая оценка формируется из оценок домашних задний. Дополнительные технические требования отсутствую.
Промежуточная аттестация

Промежуточная аттестация

  • 2021/2022 учебный год 3 модуль
    Итог = Округление(ДЗ / МаксДЗ * 11), где ДЗ — средняя оценка за все домашние задания, а МаксДЗ - сумма максимальных возможных баллов за все домашние задания.
Список литературы

Список литературы

Рекомендуемая основная литература

  • Christopher M. Bishop. (n.d.). Australian National University Pattern Recognition and Machine Learning. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.EBA0C705

Рекомендуемая дополнительная литература

  • Hastie, T., Tibshirani, R., & Friedman, J. H. (2009). The Elements of Statistical Learning : Data Mining, Inference, and Prediction (Vol. Second edition, corrected 7th printing). New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=277008