Лучший по критерию «Новизна полученных знаний»

Кто читает:: Департамент больших данных и информационного поиска

Статус:: Курс по выбору

Когда читается:: 4-й курс, 3 модуль

Преподаватели

Темирчев Павел Георгиевич

Фрицлер Александр Александрович

Дополнительные материалы в LMS Задать вопрос

Аннотация

Курс посвящен Обучению с Подкреплением (RL) - построению алгоритмов, которые изучают систему методом проб и ошибок. В отличие от традиционного машинного обучения, которому необходимо запоминать эталонные «лучшие» результаты, методы RL должны сначала определить, какие именно результаты являются "лучшими". Вместе мы прокачаем основы RL, изучим инженерные «хаки», используемые для решения реальных задач RL, изучим промышленные приложения и имеющиеся актуальные исследовательские работы. В курсе представлены самые разные приложения: от игр и робототехники до рекомендательных систем и машинного перевода. The course is dedicated to Reinforcement Learning (RL) - building algorithms that learn things by trial and error. Unlike traditional machine learning that needs to memorize reference "best" outputs, RL methods must first figure out which outputs are the best. Together we will grasp RL foundations, learn engineering “hacks” used to solve life-size RL problems, cover industrial applications and study net & hot research papers. The schedule features a variety of stuff from games and robotics to recommender systems and machine translation.

Цель освоения дисциплины

Основная цель освоения дисциплины «Обучение с подкреплением» – научиться использовать методы одноимённой области машинного обучения в практических и исследовательских задачах. Что не менее важно — научиться понимать границы применимости методов обучения с подкреплением и ситуации, когда лучше держаться от них подальше. Более детальную информацию интересующемуся студенту предлагается узнать со https://bit.ly/2HjLPnn.

Планируемые результаты обучения

Владеть: - Формализмом уравнений Беллмана, фреймворком value-based методов - Навыками дифференцирования матожидания недифференцируемых функций по параметрам распределния аргумента.
Владеть: - Формализмом уравнений Беллмана, фреймворком value-based методов - Навыками дифференцирования матожидания недифференцируемых функций по параметрам распределния аргумента.
Знать: - Постановки задач обучения с подкреплением, их отличие от задач в других областях ML. - Формализмы MAB, MDP, POMDP - Основные value-based и policy-based алгоритмы обучения с подкреплением - Отличия между on-policy и off-policy обучением
Знать: - Постановки задач обучения с подкреплением, их отличие от задач в других областях ML. - Формализмы MAB, MDP, POMDP - Основные value-based и policy-based алгоритмы обучения с подкреплением - Отличия между on-policy и off-policy обучением
Уметь: - Сводить прикладные задачи к формализму обучения с подкреплением - Реализовывать простейшие методы обучения с подкреплением для MDP - Масштабировать алгоритмы обучения с подкреплением с использованием моделей машинного обучения, в т.ч. линейных моделей и нейросетей
Уметь: - Сводить прикладные задачи к формализму обучения с подкреплением - Реализовывать простейшие методы обучения с подкреплением для MDP - Масштабировать алгоритмы обучения с подкреплением с использованием моделей машинного обучения, в т.ч. линейных моделей и нейросетей
Приобретение опыта написания и отладки обучения RL-алгоритмов
Умение сформулировать задачу в терминах RL
Научить программу играть в Atari лучше чем человек

Содержание учебной дисциплины

Тема 1. Reinforcement learning problems; MDP; Crossentropy method
Тема 2. Value-based RL; Bellman equations; Value Iteraion; Policy Iteration
Тема 3. Model-free RL; Qlearning and SARSA; On- and Off-policy learning
Тема 4. Approximate RL; Deep Q-learning; training stability & tricks;
Тема 5. Exploration; Exploration in contextual bandits; Exporation & uncertainty
Тема 6. Policy-based methods; REINFORCE; Actor-critic; Value- vs Policy-based RL
Тема 7. Applications I: Reinforcement learning for Natural Language Processing
Тема 8. Applications II: Deep Architectures, Nearest Neighbor Search, etc.
Тема 9. RL in Partially Observable Markov Decision Processes;
Тема 10. Advanced policy-based methods: TRPO, PPO, DPG; Constrained RL

Элементы контроля

Домашнее задание 1
Домашнее задание 2
Домашнее задание 3
Домашнее задание 4
Домашнее задание 5
Итоговая оценка формируется из оценок домашних задний. Дополнительные технические требования отсутствую.

Промежуточная аттестация

2021/2022 учебный год 3 модуль
Итог = Округление(ДЗ / МаксДЗ * 11), где ДЗ — средняя оценка за все домашние задания, а МаксДЗ - сумма максимальных возможных баллов за все домашние задания.

Список литературы

Авторы

Ратников Федор Дмитриевич

Бакалаврская программа «Прикладная математика и информатика»

Приемные часы учебного офиса

По вопросам поступления абитуриентов

Адрес

Обучение с подкреплением

Преподаватели

Программа дисциплины