• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2022/2023

Прикладная статистика в машинном обучении

Направление: 01.03.02. Прикладная математика и информатика
Когда читается: 3-й курс, 1, 2 модуль
Формат изучения: без онлайн-курса
Охват аудитории: для своего кампуса
Язык: русский
Кредиты: 5
Контактные часы: 60

Программа дисциплины

Аннотация

Для тех, кто учил математическую статистику на втором курсе, остаётся не вполне ясным, как её применять на практике. Действительно, с большим объёмом фундаментальных и важных математических фактов прикладной аспект статистики остаётся за кадром. Освоивший математическую статистику умеет выписать метод максимального правдоподобия для выборки независимых наблюдений, применить несколько базовых математических тестов для проверки одной гипотезы по заданию и использовать метод наименьших квадратов для того, чтобы подогнать линейную модель под данные. Всё же, можно ли использовать метод максимального правдоподобия в случае зависимых наблюдений? Как соотнести исследовательский вопрос с набором критериев и дать более сложный ответ на него с использованием статистики? Наконец, так ли верны предположения линейной регрессии (теорема Гаусса-Маркова) на практике? А если нет, то можно ли за них побороться?\\ Мы в своём курсе предлагаем посмотреть, как уже известные идеи можно применить в различных практических ситуациях. Мы начинаем с более детального исследования метода максимального правдоподобия в контексте (пока ещё) непривычных практических ситуаций, как, например, оценка марковских цепей и других случайных процессов, и мы приводим EM-алгоритм, который можно рассматривать как естественное продолжение метода максимального правдодобия. Далее мы переходим к изучению линейной регрессии и борьбе за её предположения, которые нам необходимы, если мы хотим получить интерпретируемую модель, которая не обязательно хорошо предсказывает, но способна многое объяснить про данные. Последний третий блок посвящён прикладной статистике, где мы представляем универсальный набор инструментов аналитика и обсуждаем АБ-тестирование с практической стороны, правильно встраивая статистику в общую схему АБ-тестирования.\\ Если вы хорошо знаете математическую часть статистики, но задавались вопросом, что можно из неё получить в практическом плане, или вы не очень помните, но очень хотите узнать, почему и зачем её стоит учить, то заходите на наш курс и мы постараемся вам дать хороший ответ, который, возможно, позже наведёт вас на многие необычные практические идеи.
Цель освоения дисциплины

Цель освоения дисциплины

  • Уметь применять метод максимального правдоподобия для выборки независимых наблюдений
  • Уметь применять метод максимального правдоподобия для выборки зависимых наблюдений при определённой структуре зависимостей в вероятностной модели
  • Знать и уметь использовать EM-алгоритм для построения итеративных схем оценивания в моделях с латентными переменными
  • Уметь применять классические параметрические критерии для проверки гипотез о равенстве средних и дисперсий
  • Уметь применять непараметрические критерии и критерии согласия для проверки гипотез о распределении
Планируемые результаты обучения

Планируемые результаты обучения

  • Уметь использовать непараметрические подходы (jackknife, bootstrap) для построения точечных и интервальных оценок
  • Уметь пользоваться инструментарием статистических критериев в рамках АБ-тестирования
  • Уметь корректировать методы оценивания в линейной регрессии, чтобы добиваться выполнения предположений
  • Знать предположения классической модели линейной регрессии и уметь их проверять с помощью статистических критериев
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Энтропия и дивергенция Кульбака-Лейблера, AIC
  • Метод максимального правдоподобия
  • Тесты LR, LM, W
  • EM-алгоритм
  • Бутстрэп
  • Нормальное распределение, t-распределение, хи-квадрат распределение, F-распределение. F-тест.
  • Гетероскедастичность и бутстрэп
  • Нестандартные регрессии
  • Непараметрическое оценивание (таблицы сопряжённости, категориальные переменные)
  • Байесовский подход. Байесовский фактор
  • Алгоритм Метрополиса-Гастингса
  • Variational Inference
Элементы контроля

Элементы контроля

  • неблокирующий Квиз
    Средняя оценка за все квизы
  • неблокирующий Домашние задания
    Средняя оценка за все домашние задания
  • неблокирующий Контрольная работа
    Оценка за контрольную работу
  • неблокирующий Экзамен
    Экз = - Накопленная оценка, если она меньше или равна 7. - 7, если Накопленная оценка больше 7. - Оценка за устный экзамен, если прийти и сдать его.
Промежуточная аттестация

Промежуточная аттестация

  • 2022/2023 учебный год 2 модуль
    0.3 * Экзамен + 0.28 * Домашние задания + 0.14 * Квиз + 0.28 * Контрольная работа
Список литературы

Список литературы

Рекомендуемая дополнительная литература

  • Shay Cohen. (2019). Bayesian Analysis in Natural Language Processing : Second Edition. San Rafael: Morgan & Claypool Publishers. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2102157

Авторы

  • Демешев Борис Борисович