Master
2020/2021
Practical Reinforcement Learning
Type:
Elective course (Software Development and Data Analysis)
Area of studies:
Applied Mathematics and Informatics
Delivered by:
Department of Informatics
When:
2 year, 2 module
Mode of studies:
distance learning
Instructors:
Anton Kuznetsov
Master’s programme:
Software Development and Data Analysis
Language:
English
ECTS credits:
4
Contact hours:
4
Course Syllabus
Abstract
The course is conducted online. Here you will find out about: foundations of RL methods: value/policy iteration, q-learning, policy gradient, etc. with math & batteries included using deep neural networks for RL tasks also known as "the hype train" state of the art RL algorithms and how to apply duct tape to them for practical problems. and, of course, teaching your neural network to play games because that's what everyone thinks RL is about. We'll also use it for seq2seq and contextual bandits.
Learning Objectives
- the formation of students' theoretical knowledge and practical skills in using the methods of the same field of machine learning in practical and research tasks
Expected Learning Outcomes
- Knows basic definitions of reinforcement learning. Knows simple algorithms that can solve learning problems with reinforcements with embarrassing effectiveness.
- It takes an approach to reinforcement training in a more rigorous, mathematical way. He knows how to efficiently calculate the income that your agent receives for a specific action, and how to choose the best actions based on this income.
- Applies the gained theoretical knowledge to real problems: those where you do not have an ideal model of your environment.
- Able to train agents based on neural networks.
Course Contents
- Course Introduction
- At the heart of RL: Dynamic Programming
- Model-free methods
- Approximate Value Based Methods
Assessment Elements
- course assignments
- ExamЭкзамен проводится на платформе Zoom. Экзамен проводится в устной форме (опрос по материалам курса). По просьбе преподавателя студент должен быть готов выполнить некоторые задания в письменном виде, после чего сфотографировать и выслать на почту преподавателю. К экзамену необходимо подключиться согласно расписанию, высланному преподавателем на корпоративные почты студентов накануне экзамена. Компьютер студента должен удовлетворять требованиям: наличие рабочей камеры и микрофона, поддержка платформы Zoom. Для участия в экзамене студент обязан: выбрать себе имя в Zoom совпадающее с его именем и фамилией, явиться на экзамен согласно точному расписанию, при ответе включить камеру и микрофон. Во время экзамена студентам запрещается выключать камеру. Ипользование конспектов или других справочных материалов допускается только с разрешения преподавателя. Кратковременным нарушением связи во время экзамена считается нарушение связи менее 5 минут. Долговременным нарушением связи во время экзамена считается нарушение 5 минут и более. При долговременном нарушении связи возможность продолжения студентом участие в экзамене определяется преподавателем. Процедура пересдачи подразумевает использование усложненных заданий.
Bibliography
Recommended Core Bibliography
- Hastie, T., Tibshirani, R., & Friedman, J. H. (2009). The Elements of Statistical Learning : Data Mining, Inference, and Prediction (Vol. Second edition, corrected 7th printing). New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=277008
Recommended Additional Bibliography
- Nandy, A., & Biswas, M. (2018). Reinforcement Learning : With Open AI, TensorFlow and Keras Using Python. [Berkeley, CA]: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1651811