• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site
Bachelor 2018/2019

Reinforcement Learning

Area of studies: Applied Mathematics and Information Science
Delivered by: Department of Informatics
When: 3 year, 4 module
Mode of studies: offline
Instructors: Aleksei Shpilman
Language: English
ECTS credits: 4

Course Syllabus

Abstract

Целями освоения дисциплины «Обучение с подкреплением» являются формирование у студентов теоретических знаний и практических навыков по использованию использовать методов одноимённой области машинного обучения в практических и исследовательских задачах. В результате освоения дисциплины студент должен: − Знать в каких случаях для решения задачи можно применить обучение с подкреплением. − Уметь реализовать алгоритмы RL для стратегии, аппроксимированной с помощью моделей машинного обучения (линейные, нейронные и т.п.). − Иметь навыки (приобрести опыт) применения value-based и policy-based алгоритмов RL и использования policy gradient методов для нахождения оптимальной стратегии в RL задачах.
Learning Objectives

Learning Objectives

  • формирование у студентов теоретических знаний и практических навыков по использованию использовать методов одноимённой области машинного обучения в практических и исследовательских задачах.
Expected Learning Outcomes

Expected Learning Outcomes

  • Знает основные обучающие методы, используемые для решения практических задач, а также способы их модификации в соответствии со спецификой задачи. Находит ограничения и области применимости алгоритмов обучения с подкреплением. Реализует алгоритмы обучения с подкреплением.
  • Знает понятие модели в обучении с подкреплением. Использует данные о модели в обучении с подкреплением.
  • Знает назначение иерархических методов обучения с подкреплением; определение суб-компонент. Работает с алгоритмами MAXQ и ALISP.
Course Contents

Course Contents

  • Марковские процессы и динамическое программирование
  • Обучающие методы Монте-Карло, обучение по временной разнице
  • Обучение на основе моделей. Оценка функции
  • Иерархическое и мультиагентное обучение с подкреплением
Assessment Elements

Assessment Elements

  • non-blocking Домашнее задание №1
  • non-blocking Домашнее задание №2
  • non-blocking Домашнее задание №3
  • blocking Экзамен
Interim Assessment

Interim Assessment

  • Interim assessment (4 module)
    0.16 * Домашнее задание №1 + 0.17 * Домашнее задание №2 + 0.17 * Домашнее задание №3 + 0.5 * Экзамен
Bibliography

Bibliography

Recommended Core Bibliography

  • Hastie, T., Tibshirani, R., & Friedman, J. H. (2009). The Elements of Statistical Learning : Data Mining, Inference, and Prediction (Vol. Second edition, corrected 7th printing). New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=277008

Recommended Additional Bibliography

  • Nandy, A., & Biswas, M. (2018). Reinforcement Learning : With Open AI, TensorFlow and Keras Using Python. [Berkeley, CA]: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1651811