Бакалавриат
2020/2021
Дополнительные главы прикладной статистики
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс по выбору (Прикладная математика и информатика)
Направление:
01.03.02. Прикладная математика и информатика
Где читается:
Факультет компьютерных наук
Когда читается:
3-й курс, 3, 4 модуль
Формат изучения:
без онлайн-курса
Язык:
русский
Кредиты:
6
Контактные часы:
80
Программа дисциплины
Аннотация
Курс Дополнительные главы прикладной статистики в машинном обучении составлен для студентов, обучающихся по программе "Прикладная математика и информатика", желающих детально изучить некоторые аспекты прикладной статистики, необходимые при работе с алгоритмами машинного обучения. В курсе рассмотрены как базовые вопросы статистического анализа: построение многомерных доверительных интервалов, тестирование гипотез в условиях мешающих параметров, регрессионный и дисперсионный анализ на нестандартных данных, так и современные методы, позволяющие значительно улучшить анализ данных (такие как семплирование на основе марковских цепей или методы вариационного вывода). Также курс затрагивает некоторые современные методы регресионного анализа: регрессия на основе гауссовых процессов, байесовские регрессии и обобщённые линейные модели.
Цель освоения дисциплины
- Развитие навыков вывода в многомерных данных.
- Ознакомление с основными подходами к интерпретации вероятности
- Формирование навыков простейшего анализа многомерных данных
- Обучение базовым понятиям работы с распределениями плотности вероятностей
- Обучение продвинутым алгоритмам семплирования многомерных данных
Планируемые результаты обучения
- Применяет байесовский вывод для построения доверительных интервалов
- Применяет частотный вывод для построения доверительных интервалов
- Аргументирует выбор способа оценки мешающих параметров.
- Понимает проблемы множественного тестирования
- Применяет апостериорную коррекцию результатов
- Анализирует результаты эксперимента
- Оценивает устойчивость решения
- Рассчитывает коррекцию на множественные тестирования
- Анализирует правильность применения кросс-валидации
- Предлагает коррекции для оценки величин кроссвалидацией
- Аргументирует выбор метрики для распределения вероятности
- Доказывает неравенства между метриками
- Выявляет оптимальный метод семплирования
- Применяет марковские цепи для многомерного байесовского вывода
- Использует гауссовские процессы для построения суррогатных моделей
Содержание учебной дисциплины
- Байесовский и частотный выводыВероятности. Байесовский и частотный выводы. Точечные оценки. Робастные оценки. Интервальное оценивание. Одномерные интервалы в байесовском и частотном случаях. Маргинализация и профилирование. Мешающие параметры. Априорные вероятности Джеффриса. Покрытие. Построение Неймана.
- Дисперсионный и регрессионный анализыЭкспоненциальные семейства. Обобщённые линейные модели. Логистическая регрессия. Пуассоновская регрессия. Интерпретация коэффициентов. Оценка качества обобщённых моделей. Коэффициент детерминации. Девианс. Анализ остатков. Оценка погрешности AUC-score. Дисперсионный анализ. Допущения стандартного анализа. Проверки Тест Шапиро-Уилка, тест Ливиня, апостериорные тесты (Тьюки-Крамера, Ньюмена-Кейлса, Шеффе, Даннетта). Метод контрастов. Множественные тесты в GLM. False Discovery Rate. Коррекции Бонферрони, Тьюки, Бенжамини-Хохберга. Непараметрические оценки. Ядерная регрессия Надарая — Уотсона. Байесовская регрессия.
- Статистика машинного обученияКросс-валидация. Устойчивость оценок кросс-валидации. Дистанции, f-дивергенции. Дивергенция Кульбака-Лейблера, дивергенция Йенсена-Шеннона. Расстояние полной вариации. Оценки сверху и снизу для f-дивергенций, вариационные оценки (Донскер-Варадан, ELBO)
- СемплированиеМарковские случайные процессы. Определение. Матрица перехода. Стохастические матрицы. Однородная марковская цепь. Алгоритм Метрополиса-Гастингса. Гамильтоново Монте-Карло.
- Гауссовские процессыГауссовские процессы. Прогноз и оценка точности прогноза на основе гауссовских процессов. Оценка параметров ковариационной функции. Регуляризация логарифма правдоподобия. Модель нестационарной ковариационной функции. Регрессия на основе гауссовских процессов как ядерная гребневая регрессия Дизайн эксперимента. Построение суррогатных моделей гауссовскими процессами. Выбор ковариаций для гауссовых процессов, экзотические ядра Глубокие гауссовские процессы.
Элементы контроля
- Домашнее задание 1
- Домашнее задание 2
- Домашнее задание 3
- Домашнее задание 4
- Коллоквиум
- Письменный экзамен
Промежуточная аттестация
- Промежуточная аттестация (4 модуль)0.2 * Домашнее задание 1 + 0.2 * Домашнее задание 2 + 0.2 * Домашнее задание 3 + 0.2 * Домашнее задание 4 + 0.1 * Коллоквиум + 0.1 * Письменный экзамен
Список литературы
Рекомендуемая основная литература
- A first course in Bayesian statistical methods, Hoff, P. D., 2009
- Agresti, A. (2013). Categorical Data Analysis (Vol. Third edition). Hoboken, NJ: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=769330
- Computer age statistical inference : algorithms, evidence, and data science, Efron, B., 2017
- Gelman, A. B., & Hill, J. (2015). Data analysis using regression and multilevel/hierarchical models. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.4E4FBAE7
- Gelman, A., & Hill, J. (2007). Data Analysis Using Regression and Multilevel/Hierarchical Models. Cambridge University Press.
- Hastie, T., Tibshirani, R., & Friedman, J. H. (2009). The Elements of Statistical Learning : Data Mining, Inference, and Prediction (Vol. Second edition, corrected 7th printing). New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=277008
- Trevor Hastie, Robert Tibshirani, & Jerome Friedman. New York. (n.d.). Book Reviews 567 The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.45E1D521
- Yudi Pawitan, In All Likelihood: Statistical Modelling and Inference Using Likelihood, Oxford University Press (2019) Persistent link to this record (Permalink): http://search.ebscohost.com/login.aspx?direct=true&db=edspub&AN=edp2267145&site=pfi-live
- Глубокое обучение, Гудфеллоу, Я., 2018
- Наглядная математическая статистика : учеб. пособие для вузов, Лагутин, М. Б., 2019
Рекомендуемая дополнительная литература
- All of statistics : a concise course in statistical interence, Wasserman, L., 2004
- Handbook of Markov Chain Monte Carlo (Chapman & Hall/CRC Handbooks of Modern Statistical Methods) ISBN: 978-1-4200-7941-8, editor Brooks, Steve
- The Bayesian way : introductory statistics for economists and engineers, Nyberg, S. O., 2019
- Гауссовские случайные процессы, Ибрагимов, И. А., 1970
- Питербарг В.И. - Двадцать лекций о гауссовских процессах - Московский центр непрерывного математического образования - 2015 - 189с. - ISBN: 978-5-4439-2404-5 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/71825