Магистратура
2020/2021
Практическое применение обучения с подкреплением
Статус:
Курс по выбору (Программирование и анализ данных)
Направление:
01.04.02. Прикладная математика и информатика
Кто читает:
Департамент информатики
Когда читается:
1-й курс, 4 модуль
Формат изучения:
с онлайн-курсом
Преподаватели:
Кузнецов Антон Михайлович
Прогр. обучения:
Программирование и анализ данных
Язык:
английский
Кредиты:
4
Контактные часы:
4
Course Syllabus
Abstract
The course is conducted online. Here you will find out about: foundations of RL methods: value/policy iteration, q-learning, policy gradient, etc. with math & batteries included using deep neural networks for RL tasks also known as "the hype train" state of the art RL algorithms and how to apply duct tape to them for practical problems. and, of course, teaching your neural network to play games because that's what everyone thinks RL is about. We'll also use it for seq2seq and contextual bandits.
Learning Objectives
- the formation of students' theoretical knowledge and practical skills in using the methods of the same field of machine learning in practical and research tasks
Expected Learning Outcomes
- Knows basic definitions of reinforcement learning. Knows simple algorithms that can solve learning problems with reinforcements with embarrassing effectiveness.
- It takes an approach to reinforcement training in a more rigorous, mathematical way. He knows how to efficiently calculate the income that your agent receives for a specific action, and how to choose the best actions based on this income.
- Applies the gained theoretical knowledge to real problems: those where you do not have an ideal model of your environment.
- Able to train agents based on neural networks.
Course Contents
- Course Introduction
- At the heart of RL: Dynamic Programming
- Model-free methods
- Approximate Value Based Methods
Assessment Elements
- course assignments
- ExamЭкзамен проводится на платформе Zoom. Экзамен проводится в устной форме (опрос по материалам курса). По просьбе преподавателя студент должен быть готов выполнить некоторые задания в письменном виде, после чего сфотографировать и выслать на почту преподавателю. К экзамену необходимо подключиться согласно расписанию, высланному преподавателем на корпоративные почты студентов накануне экзамена. Компьютер студента должен удовлетворять требованиям: наличие рабочей камеры и микрофона, поддержка платформы Zoom. Для участия в экзамене студент обязан: выбрать себе имя в Zoom совпадающее с его именем и фамилией, явиться на экзамен согласно точному расписанию, при ответе включить камеру и микрофон. Во время экзамена студентам запрещается выключать камеру. Ипользование конспектов или других справочных материалов допускается только с разрешения преподавателя. Кратковременным нарушением связи во время экзамена считается нарушение связи менее 5 минут. Долговременным нарушением связи во время экзамена считается нарушение 5 минут и более. При долговременном нарушении связи возможность продолжения студентом участие в экзамене определяется преподавателем. Процедура пересдачи подразумевает использование усложненных заданий.
Bibliography
Recommended Core Bibliography
- Hastie, T., Tibshirani, R., & Friedman, J. H. (2009). The Elements of Statistical Learning : Data Mining, Inference, and Prediction (Vol. Second edition, corrected 7th printing). New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=277008
Recommended Additional Bibliography
- Nandy, A., & Biswas, M. (2018). Reinforcement Learning : With Open AI, TensorFlow and Keras Using Python. [Berkeley, CA]: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1651811