• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2023/2024

Прикладная статистика в машинном обучении

Статус: Курс обязательный (Прикладная математика и информатика)
Направление: 01.03.02. Прикладная математика и информатика
Когда читается: 3-й курс, 1, 2 модуль
Формат изучения: без онлайн-курса
Охват аудитории: для всех кампусов НИУ ВШЭ
Преподаватели: Демидова Дарья Сергеевна, Золотарев Антон Олегович, Каледин Максим Львович, Хассан Яна Нибаль
Язык: русский
Кредиты: 5
Контактные часы: 56

Программа дисциплины

Аннотация

Для тех, кто учил математическую статистику на втором курсе, остаётся не вполне ясным, как её применять на практике. Действительно, с большим объёмом фундаментальных и важных математических фактов прикладной аспект статистики остаётся за кадром. Освоивший математическую статистику умеет выписать метод максимального правдоподобия для выборки независимых наблюдений, применить несколько базовых математических тестов для проверки одной гипотезы по заданию и использовать метод наименьших квадратов для того, чтобы подогнать линейную модель под данные. Всё же, можно ли использовать метод максимального правдоподобия в случае зависимых наблюдений? Как соотнести исследовательский вопрос с набором критериев и дать более сложный ответ на него с использованием статистики? Наконец, так ли верны предположения линейной регрессии (теорема Гаусса-Маркова) на практике? А если нет, то можно ли за них побороться?\\ Мы в своём курсе предлагаем посмотреть, как уже известные идеи можно применить в различных практических ситуациях. Мы начинаем с более детального исследования метода максимального правдоподобия в контексте (пока ещё) непривычных практических ситуаций, как, например, оценка марковских цепей и других случайных процессов, и мы приводим EM-алгоритм, который можно рассматривать как естественное продолжение метода максимального правдодобия. Далее мы переходим к изучению линейной регрессии и борьбе за её предположения, которые нам необходимы, если мы хотим получить интерпретируемую модель, которая не обязательно хорошо предсказывает, но способна многое объяснить про данные. Последний третий блок посвящён прикладной статистике, где мы представляем универсальный набор инструментов аналитика и обсуждаем АБ-тестирование с практической стороны, правильно встраивая статистику в общую схему АБ-тестирования.\\ Если вы хорошо знаете математическую часть статистики, но задавались вопросом, что можно из неё получить в практическом плане, или вы не очень помните, но очень хотите узнать, почему и зачем её стоит учить, то заходите на наш курс и мы постараемся вам дать хороший ответ, который, возможно, позже наведёт вас на многие необычные практические идеи.
Цель освоения дисциплины

Цель освоения дисциплины

  • Уметь применять метод максимального правдоподобия для выборки независимых наблюдений
  • Уметь применять метод максимального правдоподобия для выборки зависимых наблюдений при определённой структуре зависимостей в вероятностной модели
  • Знать и уметь использовать EM-алгоритм для построения итеративных схем оценивания в моделях с латентными переменными
  • Уметь применять классические параметрические критерии для проверки гипотез о равенстве средних и дисперсий
  • Уметь применять непараметрические критерии и критерии согласия для проверки гипотез о распределении
Планируемые результаты обучения

Планируемые результаты обучения

  • Уметь использовать непараметрические подходы (jackknife, bootstrap) для построения точечных и интервальных оценок
  • Уметь пользоваться инструментарием статистических критериев в рамках АБ-тестирования
  • Уметь корректировать методы оценивания в линейной регрессии, чтобы добиваться выполнения предположений
  • Знать предположения классической модели линейной регрессии и уметь их проверять с помощью статистических критериев
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Метод максимального правдоподобия
  • Теория информации
  • EM-алгоритм: ещё ММП
  • EM-алгоритм: оценка фильтров
  • Доверительные интервалы и проверка гипотез
  • Эконометрика: Гаусс-Марков
  • Эконометрика: предположения
  • Эконометрика: борьба за предположения
  • В сторону от линейной модели
  • Статистика: ранговые критерии
  • Статистика: АБ-тестирование
  • Статистика: множественное тестирование
  • Кроме классической статистики
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание 1
    Метод максимального правдоподобия для зависимых наблюдений и ЕМ-алгоритм. Выдаётся на первой неделе с дедлайном приблизительно на 4й и посвящена лекциям 1-4. Состоит из нескольких программных задач и нескольких теоретических задач, полное нужно предоставить в одном jupyter-ноутбуке. Задачи оцениваются исходя из трудоемкости. Дедлайн мягкий с возможностью сдать в следующую неделю со штрафом.
  • неблокирующий Домашнее задание 2
    Модель линейной регрессии Выдаётся на 5й неделе с дедлайном приблизительно на 9й и посвящена лекциям 5-9. Состоит из нескольких программных задач и нескольких теоретических задач, полное нужно предоставить в одном jupyter-ноутбуке. Задачи оцениваются исходя из трудоемкости. Дедлайн мягкий с возможностью сдать в следующую неделю со штрафом.
  • неблокирующий Домашнее задание 3
    Б-тестирование и применение статистических критериев Выдаётся на 9й неделе с дедлайном приблизительно на 12й и посвящена лекциям 9-12. Состоит из нескольких программных задач и нескольких теоретических задач, полное нужно предоставить в одном jupyter-ноутбуке. Задачи оцениваются исходя из трудоемкости. Дедлайн мягкий с возможностью сдать в следующую неделю со штрафом.
  • неблокирующий Контрольная работа
    Контрольная работа предусматривает решение некоторого количества задач, все решённые задачи в сумме дают оценку в 10 баллов. Допускается использование лекционных конспектов (в том числе на электронных устройствах) и самого компьютера для проведения вычислений. Не допускается использование текстовых ботов для получения готового решения. Контрольная проводится после 8й лекции и недели консультаций.
  • неблокирующий Экзамен
    Экзамен проводится в устной форме, студенту предлагается ответить на теоретический вопрос и решить одну задачу. При подготовке разрешено пользоваться любыми материалами, не допускается использование текстовых ботов.
  • неблокирующий Квизы
    Семинарские самостоятельные мини-работы.
Промежуточная аттестация

Промежуточная аттестация

  • 2023/2024 учебный год 2 модуль
    Оитог=0.7*Онакоп+0,3*max(Оэкз, min(7, Онакоп))
Список литературы

Список литературы

Рекомендуемая основная литература

  • Kim, J., Chen, Y.-C., Balakrishnan, S., Rinaldo, A., & Wasserman, L. (2016). Statistical Inference for Cluster Trees.
  • Чжун, К. Л. Элементарный курс теории вероятностей. Стохастические процессы и финансовая математика : учебник / К. Л. Чжун, Ф. Аит-Сахлиа , перевод с английского М. Б. Лагутина , художник С. Инфантэ. — 4-е изд. — Москва : Лаборатория знаний, 2021. — 458 с. — ISBN 978-5-93208-572-1. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/176459 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • Shay Cohen. (2019). Bayesian Analysis in Natural Language Processing : Second Edition. San Rafael: Morgan & Claypool Publishers. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2102157
  • Кибзун, А. И. Теория вероятностей и математическая статистика. Базовый курс с примерами и задачами : справочник / А. И. Кибзун, Е. Р. Горяинова, А. В. Наумов. — 3-е изд. — Москва : ФИЗМАТЛИТ, 2007. — 232 с. — ISBN 978-5-9221-0836-2. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/59479 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Лагутин, М. Б. Наглядная математическая статистика : учебное пособие / М. Б. Лагутин. — 7-е изд. — Москва : Лаборатория знаний, 2019. — 475 с. — ISBN 978-5-00101-642-7. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/116104 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.