Практическое применение обучения с подкреплением

Магистратура 2020/2021

Статус: Курс по выбору (Программирование и анализ данных)

Направление: 01.04.02. Прикладная математика и информатика

Кто читает: Департамент информатики

Где читается: Санкт-Петербургская школа физико-математических и компьютерных наук

Когда читается: 1-й курс, 4 модуль

Формат изучения: с онлайн-курсом

Преподаватели: Кузнецов Антон Михайлович

Прогр. обучения: Программирование и анализ данных

Язык: английский

Кредиты: 4

Контактные часы: 4

Full Syllabus

Abstract

The course is conducted online. Here you will find out about: foundations of RL methods: value/policy iteration, q-learning, policy gradient, etc. with math & batteries included using deep neural networks for RL tasks also known as "the hype train" state of the art RL algorithms and how to apply duct tape to them for practical problems. and, of course, teaching your neural network to play games because that's what everyone thinks RL is about. We'll also use it for seq2seq and contextual bandits.

Learning Objectives

the formation of students' theoretical knowledge and practical skills in using the methods of the same field of machine learning in practical and research tasks

Expected Learning Outcomes

Knows basic definitions of reinforcement learning. Knows simple algorithms that can solve learning problems with reinforcements with embarrassing effectiveness.
It takes an approach to reinforcement training in a more rigorous, mathematical way. He knows how to efficiently calculate the income that your agent receives for a specific action, and how to choose the best actions based on this income.
Applies the gained theoretical knowledge to real problems: those where you do not have an ideal model of your environment.
Able to train agents based on neural networks.

Course Contents

Course Introduction
At the heart of RL: Dynamic Programming
Model-free methods
Approximate Value Based Methods

Assessment Elements

course assignments
Exam
Экзамен проводится на платформе Zoom. Экзамен проводится в устной форме (опрос по материалам курса). По просьбе преподавателя студент должен быть готов выполнить некоторые задания в письменном виде, после чего сфотографировать и выслать на почту преподавателю. К экзамену необходимо подключиться согласно расписанию, высланному преподавателем на корпоративные почты студентов накануне экзамена. Компьютер студента должен удовлетворять требованиям: наличие рабочей камеры и микрофона, поддержка платформы Zoom. Для участия в экзамене студент обязан: выбрать себе имя в Zoom совпадающее с его именем и фамилией, явиться на экзамен согласно точному расписанию, при ответе включить камеру и микрофон. Во время экзамена студентам запрещается выключать камеру. Ипользование конспектов или других справочных материалов допускается только с разрешения преподавателя. Кратковременным нарушением связи во время экзамена считается нарушение связи менее 5 минут. Долговременным нарушением связи во время экзамена считается нарушение 5 минут и более. При долговременном нарушении связи возможность продолжения студентом участие в экзамене определяется преподавателем. Процедура пересдачи подразумевает использование усложненных заданий.

Interim Assessment

Interim assessment (4 module)
0.5 * course assignments + 0.5 * Exam

Bibliography

Recommended Core Bibliography

Hastie, T., Tibshirani, R., & Friedman, J. H. (2009). The Elements of Statistical Learning : Data Mining, Inference, and Prediction (Vol. Second edition, corrected 7th printing). New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=277008

Recommended Additional Bibliography

Nandy, A., & Biswas, M. (2018). Reinforcement Learning : With Open AI, TensorFlow and Keras Using Python. [Berkeley, CA]: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1651811

Course Syllabus