• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2023/2024

Обучение с подкреплением

Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус: Маго-лего
Когда читается: 3 модуль
Охват аудитории: для своего кампуса
Язык: русский
Кредиты: 3
Контактные часы: 14

Программа дисциплины

Аннотация

В этом курсе мы поговорим об аспектах, которые обычно приобретаются только на практике в процессе освоения профессии в IT. Мы рассмотрим, как вести коммуникацию между сотрудниками посредством кода, автоматизируем рутинные задачи при помощи командной строки, научимся создавать окружение проекта. Немаловажным аспектом курса является повествование об автоматизации тестирования в сфере анализа данных. После окончания курса студенты смогут построить автоматический конвейер сборки, тестирования проекта машинного обучения и подготовки использования этого проекта в боевой среде!
Цель освоения дисциплины

Цель освоения дисциплины

  • Ознакомление студентов с основными подходами и алгоритмами обучения с подкреплением. Планируется дать понимание того, какие существуют подходы к решению задач обучения с подкреплением, научить выбирать алгоритм, наиболее подходящий для рассматриваемой студентом задачи, научить обучать модели с использованием современных нейросетевых библиотек.
Планируемые результаты обучения

Планируемые результаты обучения

  • Имеют представление об основных понятиях RL и постановке оптимизационной задачи, выводе уравнений Беллмана, умеют применять алгоритмы Policy Iteration и Value Iteration на практике.
  • Понимают отличие model-based и model-free подходов, концепцию Temporal Difference Learning, имеют представление об отличиях алгоритмов Q-learning от алгоритмов из семейства SARSA, умеют применять их на практике для стандартных сред.
  • Имеют представление о концепции аппроксимации функций с помощью нейронных сетей, о концепции сверточных слоев, об алгоритме DQN и его недостатках, понимают природу различных модификаций, применяют на практике для различных сред, в том числе компьютерных игр Atari.
  • Имеют представление о выводе формулы градиента по стратегии, использующий log derivative trick, об алгоритме REINFORCE и методе снижения дисперсии оценки стохастического градиента, концепции Advantage функции и ее использовании для понижения дисперсии, концепции Actor-Critic в общем и алгоритмов A3C и A2C в частности.
  • Имеют представление о разложении функции по формуле Тейлора в окрестности точки, о концепции оптимизации в пространстве с произвольной метрикой, заданной симметричной положительно определенной матрицей, об алгоритмах TRPO и PPO, умеют применять их на практике для стандартных сред.
  • Имеют представление об особенностях применения RL алгоритмов к задачам с непрерывным пространством действий, об алгоритмах DDPG, TD3 и SAC для решения задачи непрерывного управления, умеют применять их на практике.
  • Понимают отличия оффлайн парадигмы от онлайн, применяют на практике алгоритмы CQL, IQL, Decision Transformer
  • Понимают отличие в постановке задачи Многорукого бандита от постановки задачи классического RL, понимают теоретические основания для оценок сверху и снизу на Regret, понимают неэффективность эпсилон-жадных алгоритмов для задачи Многорукого бандита, понимают теоретические основания, лежащие за алгоритмами UCB и Thompson Sampling, умеют применять их на практике.
  • Имеют представление об отличии model-based от model-free подхода, понимают особенности планирования в RL средах, имеют представление об алгоритмах планирования от классических до современных, о способах построения аппроксимации для среды.
  • Имеют представление о пайплайне обучения LLM, сфокусировав внимание на последней стадии “выравнивания” модели с человеческими предпочтениями; о подходе RLHF и его использование в контексте LLM: обучение Reward model, файнтюнинг с помощью PPO.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Bellman Equations and Dynamic Programming
  • Model-free RL
  • DQN и его модификации
  • Policy Gradients Methods, Actor-Critic framework
  • Advanced Policy Gradients Methods
  • Continuous Control
  • Offline RL
  • Multi-armed Bandits
  • Model-based RL
  • Reinforcement Learning from Human Feedback
Элементы контроля

Элементы контроля

  • неблокирующий HW1
  • неблокирующий HW2
  • неблокирующий HW3
  • неблокирующий HW4
  • неблокирующий RC
    Необходимо подготовить небольшую презентацию, в которой вы за отведенное время рассказываете про цели, основные идеи и результаты исследования, возможно высказываете свое мнение по поводу достоинств и недостатков предложенной модели. Можно брать как статьи, описывающие какие-то новые подходы и модификации существующих моделей RL, так и интересные приложения RL к различным областям. Статьи должны быть относительно новыми (не раньше 2017 года), можно брать статьи с топовых конференций (NIPS, ICLR etc).
  • неблокирующий TA
Промежуточная аттестация

Промежуточная аттестация

  • 2023/2024 учебный год 3 модуль
    МИН(10, 10 * (0.6 * HW / 14 + 0.1 * TA / 9 + 0.3 * RC / 5)), где HW — сумма за 4 домашних задания (1 простая и 3 сложные, с потенциальными 8.75 баллами бонусом), RC — оценка за видео-презентацию статьи, посвященной новым алгоритмам или неожиданными применениям RL парадигмы в индустрии, TA – оценки за квизы. Мягкий дедлайн объявляется в день выдачи домашнего задания и обычно составляет 1 неделю для простых и 2 недели для сложных домашних заданий. Жесткий дедлайн, после которого сдавать задачи разрешается только в рамках пересдачи, наступает через неделю после мягкого. Кроме того, за каждый день после мягкого дедлайна снимается по 0.1 баллу за простое и 0.2 балла за сложное домашнее задание.
Список литературы

Список литературы

Рекомендуемая основная литература

  • Обучение с подкреплением, Саттон, Р. С., 2011

Рекомендуемая дополнительная литература

  • Обучение с подкреплением: введение - Саттон Р.С., Барто Э., Слинкин А.А. - ДМК Пресс - 2020 - https://znanium.com/catalog/product/1210617 - 535096 - ZNANIUM