Delivered at:: Joint Department with Yandex (Big Data and Information Retrieval School)

Course type:: Elective course

When:: 2 year, 1, 2 module

Instructor

Babenko, Artem

Полная версия программы учебной дисциплины

Аннотация

"Изучение дисциплины «Байесовские методы машинного обучения» нацелено на освоение т.н. байесовского подхода к теории вероятностей как одного из последовательных способов математических рассуждений в условиях неопределенности. В байесовском подходе вероятность интерпретируется как мера незнания, а не как объективная случайность. Простые правила оперирования с вероятностью, такие как формула полной вероятности и формула Байеса, позволяют проводить рассуждения в условиях неопределенности. В этом смысле байесовский подход к теории вероятностей можно рассматривать как обобщение классической булевой логики. Целью курса также является освоение студентами основных способов применения байесовского подхода при решении задач машинного обучения. Байесовский подход позволяет эффективно учитывать различные предпочтения пользователя при построении решающих правил прогноза. Кроме того, он позволяет решать задачи выбора структурных параметров модели. В частности, здесь удается решать без комбинаторного перебора задачи селекции признаков, выбора числа кластеров в данных, размерности редуцированного пространства при уменьшении размерности, значений коэффициентов регуляризации и проч. Предполагается, что в результате освоения курса студенты будут способны строить комплексные вероятностные модели, учитывающие структуру прикладной задачи машинного обучения, выводить необходимые формулы для решения задач обучения и вывода в рамках построенных вероятностных моделей, а также эффективно реализовывать данные модели на компьютере."

Цель освоения дисциплины

Освоение студентами основных способов применения байесовского подхода при решении задач машинного обучения, формирование математического аппарата, необходимого для использования байесовских методов в машинном обучении.

Планируемые результаты обучения

Понимать различие между частотным и байесовским подходами в статистике
Уметь пользовать формулой Байеса для решения практических задач
Понимать преимущества распределений из экспоненциального класса
Уметь находить сопряжённые распределения
Уметь осуществлять модели на основе байесовских соображений
Понимать суть понятия обоснованности
Уметь строить вероятностные модели для задачи регрессии и подбирать распределения коэффициентов с помощью байесовского подхода
Уметь строить вероятностные модели для задачи классификации и подбирать распределения коэффициентов с помощью байесовского подхода
Уметь использовать приближение Лапласа для оценки обоснованности в случае задачи классификации
Уметь использовать ЕМ-алгоритм для анализа моделей со скрытыми переменными
Понимать конценпцию вариационную вывода
Уметь использовать методы Монте-Карло для генерации значений из заданных распределений
Уметь использовать схемы Метрополиса-Гастингса и Гиббса
Владеть продвинутыми методами сеплирования из заданных распределений, в том числе их масштабируемыми разновидностями
Использовать гауссовские случайные процессы, в том числе для подбора гиперпараметров алгоритмов машинного обучения
Использовать в практических задачах случайные процессы, в том числе с нечисловыми значениями
Использовать на практике модели тематического моделирования
Использовать стохастичекий и дважды стохастический вариационный вывод для масштабирования байесовского вывода
Использовать вариационный автокодировщик для сжатия данных

Содержание учебной дисциплины

Байесовский подход к теории вероятностей.
Введение. Частотный и байесовский подходы к теории вероятностей. Примеры байесовских рассуждений.
Полный байесовский вывод
Сопряжённые распределения. Примеры. Экспоненциальный класс распределений, его свойства.
Байесовский выбор модели
Принцип наибольшей обоснованности. Интерпретация понятия обоснованности, ее геометрический смысл, иллюстративные примеры, связь с принципом Оккама.
Модель релевантных векторов для задачи регрессии
Обобщенные линейные модели, вероятностная модель линейной регрессии. Метод релевантных векторов, вывод формул для регрессии. Свойства решающего правила. Матричные вычисления и нормальное распределение.
Модель релевантных векторов для задачи классификации
Логистическая и мультиномиальная регрессия. Метод релевантных векторов для задачи классификации. Приближение Лапласа для оценки обоснованности в случае задачи классификации, его достоинства и недостатки.
ЕМ-алгоритм
EM-алгоритм в общем виде. EM-алгоритм как покоординатный подъем. ЕМ-алгоритм для задачи разделения смеси нормальных распределений. Байесовский метод главных компонент.
Вариационный подход
Приближенные методы байесовского вывода. Минимизация дивергенции Кульбака-Лейблера и факторизованное приближение. Идея вариационного подхода, вывод формул для вариационной смеси нормальных распределений.
Методы Монте Карло по схеме марковских цепей (МСМС)
Методы генерации выборки из одномерных распределений. Методы MCMCдля оценки статистик вероятностных распределений. Теоретические свойства марковских цепей. Схема Метрополиса-Хастингса и схема Гиббса. Примеры использования.
Стохастические методы МСМС
Продвинутые методы самплирования, использующие градиент лог-правдоподобия. Динамика Гамильтона и Ланжевена. Масштабируемые обобщения этих методов.
Гауссовские процессы для регрессии и классификации
Гауссовские случайные процессы. Выбор наиболее адекватной ковариационной функции.
Тематическая модель LatentDirichletAllocation(LDA)
Обучение и вывод в модели LDA с помощью вариационного подхода. Вывод в модели LDA с помощью схемы Гиббса. Способы использования LDA.
Стохастический вариационный вывод. Вариационный автокодировщик.
Схема масштабируемого вариационного вывода. Дважды стохастическая процедура настройки байесовских нейросетевых моделей на примере модели нелинейного понижения размерности.

Элементы контроля

Домашняя работа 1
Домашняя работа 2
Экзамен

Промежуточная аттестация

Промежуточная аттестация (2 модуль)
0.3 * Домашняя работа 1 + 0.3 * Домашняя работа 2 + 0.4 * Экзамен

Master’s Programme 'Data Science'

Contacts

Bayesian Methods for Machine Learning

Instructor

Программа дисциплины

Аннотация

Цель освоения дисциплины

Планируемые результаты обучения

Содержание учебной дисциплины

Элементы контроля

Промежуточная аттестация

Список литературы

Рекомендуемая основная литература

Рекомендуемая дополнительная литература