• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2019/2020

Практическое применение обучения с подкреплением

Статус: Курс по выбору (Программирование и анализ данных)
Направление: 01.04.02. Прикладная математика и информатика
Когда читается: 1-й курс, 4 модуль
Формат изучения: с онлайн-курсом
Прогр. обучения: Программирование и анализ данных
Язык: английский
Кредиты: 4

Course Syllabus

Abstract

The course is conducted online. Here you will find out about: foundations of RL methods: value/policy iteration, q-learning, policy gradient, etc. with math & batteries included using deep neural networks for RL tasks also known as "the hype train" state of the art RL algorithms and how to apply duct tape to them for practical problems. and, of course, teaching your neural network to play games because that's what everyone thinks RL is about. We'll also use it for seq2seq and contextual bandits.
Learning Objectives

Learning Objectives

  • the formation of students' theoretical knowledge and practical skills in using the methods of the same field of machine learning in practical and research tasks
Expected Learning Outcomes

Expected Learning Outcomes

  • Knows basic definitions of reinforcement learning. Knows simple algorithms that can solve learning problems with reinforcements with embarrassing effectiveness.
  • It takes an approach to reinforcement training in a more rigorous, mathematical way. He knows how to efficiently calculate the income that your agent receives for a specific action, and how to choose the best actions based on this income.
  • Applies the gained theoretical knowledge to real problems: those where you do not have an ideal model of your environment.
  • Able to train agents based on neural networks.
Course Contents

Course Contents

  • Course Introduction
  • At the heart of RL: Dynamic Programming
  • Model-free methods
  • Approximate Value Based Methods
Assessment Elements

Assessment Elements

  • non-blocking course assignments
  • blocking Exam
    Экзамен проводится на платформе Zoom. Экзамен проводится в устной форме (опрос по материалам курса). По просьбе преподавателя студент должен быть готов выполнить некоторые задания в письменном виде, после чего сфотографировать и выслать на почту преподавателю. К экзамену необходимо подключиться согласно расписанию, высланному преподавателем на корпоративные почты студентов накануне экзамена. Компьютер студента должен удовлетворять требованиям: наличие рабочей камеры и микрофона, поддержка платформы Zoom. Для участия в экзамене студент обязан: выбрать себе имя в Zoom совпадающее с его именем и фамилией, явиться на экзамен согласно точному расписанию, при ответе включить камеру и микрофон. Во время экзамена студентам запрещается выключать камеру. Ипользование конспектов или других справочных материалов допускается только с разрешения преподавателя. Кратковременным нарушением связи во время экзамена считается нарушение связи менее 5 минут. Долговременным нарушением связи во время экзамена считается нарушение 5 минут и более. При долговременном нарушении связи возможность продолжения студентом участие в экзамене определяется преподавателем. Процедура пересдачи подразумевает использование усложненных заданий.
Interim Assessment

Interim Assessment

  • Interim assessment (4 module)
    0.5 * course assignments + 0.5 * Exam
Bibliography

Bibliography

Recommended Core Bibliography

  • Hastie, T., Tibshirani, R., & Friedman, J. H. (2009). The Elements of Statistical Learning : Data Mining, Inference, and Prediction (Vol. Second edition, corrected 7th printing). New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=277008

Recommended Additional Bibliography

  • Nandy, A., & Biswas, M. (2018). Reinforcement Learning : With Open AI, TensorFlow and Keras Using Python. [Berkeley, CA]: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1651811