Магистратура
2019/2020





Вычислительная статистика
Статус:
Курс по выбору (Анализ больших данных в бизнесе, экономике и обществе)
Направление:
01.04.02. Прикладная математика и информатика
Кто читает:
Департамент математики
Когда читается:
1-й курс, 2, 3 модуль
Формат изучения:
без онлайн-курса
Прогр. обучения:
Анализ больших данных в бизнесе, экономике и обществе
Язык:
русский
Кредиты:
6
Контактные часы:
44
Программа дисциплины
Аннотация
Целями освоения дисциплины «Вычислительная статистика» являются: • изучение вычислительных и статистических методов обработки данных • приобретение навыка в генерировании сложных вероятностных моделей, • освоение программного обеспечения для статистической обработки данных, • подготовка к самостоятельной исследовательской деятельности в области статистики данных. Курс содержит следующие разделы: Моделирование случайных величин и векторов. Методы Монте-Карло; Марковские цепи. MCMC. Алгоритм Метрополис-Гастингса. Семплирование по Гиббсу. Алгоритм имитации отжига; Ресемплинг. Метод складного ножа и бутстреп; Ресемплинг. Перестановочные тесты для проверки различных статистических гипотез; Проверка гипотез с помощью бутсрепа. Проверка гипотез с помощью симуляций.
Цель освоения дисциплины
- Изучение вычислительных и статистических методов обработки данных
- Приобретение навыка в генерировании сложных вероятностных моделей
- Освоение программного обеспечения для статистической обработки данных
- Подготовка к самостоятельной исследовательской деятельности в области статистики данных
Планируемые результаты обучения
- Демонстрирует умение генерировать дискретные и непрерывные случайные величины, равномерное и нормальное распределение, оценивает параметры и интегрирует методом Монте-Карло
- Демонстрирует умение моделировать многомерные распределения, использует алгоритм Метрополис-Гастингса, моделирует случайные графы Эрдоша-реньи, применяет алгоритм имитации отжига в применении к оптимизационным задачам
- Демонстрирует знание вероятностного метода кластеризации в модели смеси Гауссовских распределений, применяет ЕМ алгоритм к смеси Марковских цепей
- Демонстрирует умение улучшать и объединять оценки, знает свойства получаемых оценок, умеет корректировать смещения бутстрепом
- Демонстрирует умение находить р-значения перестановками из исходной выборки, использует тесты для проверки независимости, тест Фишера
- Умеет проверять гипотезы с помощью бутстрепа, находит р-значения симуляциями и бутстрепом
Содержание учебной дисциплины
- Моделирование случайных величин и векторов. Методы Монте-Карло.Генераторы случайных чисел. Генерирование равномерного распределения. Метод обратного преобразования. Генерирование дискретных случайных величин. Генерирование абсолютно непрерывных случайных величин. Метод выборки с отклонением. Генерирование стандартного нормального распределения и двумерного Гауссовского вектора. Проблема “проклятья размерности” в этих задачах. Генерирование смеси распределений. Моделирование случайных векторов через условное распределение. Оценивание параметров и интегрирование методом Монте-Карло. Выборка по значимости (importance sampling).
- Марковские цепи. MCMC. Алгоритм имитации отжига.Переходные матрицы и плотности вероятностей Марковских цепей. Стационарное распределение Марковской цепи. Уравнение баланса. Монте-Карло с помощью Марковских цепей (MCMC). Алгоритм Метрополис-Гастингса. Моделирование многомерных распределений. Семплинг по Гиббсу. Модель Поттса (в частности, модель Изинга) и ее моделирование. Случайные графы Эрдоша-Реньи и их моделирование. Алгоритм имитации отжига для ускорения MCMC и в применении к оптимизационным задачам. Задача коммивояжера. Стохастический градиентный спуск в сравнении с MCMC.
- EM алгоритмМодель смеси Гауссовских распределений. Вероятностный метод кластеризации в такой модели. Сравнение ЕМ и К-means алгоритмов. Применение ЕМ алгоритма к смеси Марковских цепей.
- Ресемплинг. Метод складного ножа и бутстреп.Идеальный бутстреп. Бутстреп для оценки среднего, дисперсии и других параметров выборки. Доверительные интервалы параметров с помощью бутстрепа. Свойства получаемых оценок. Коррекция смещения бутстрепом. Сравнение метода складного ножа и бутстрепа. Их асимптотические свойства. Bootstrap aggregating (bagging). Boosting.
- Ресемплинг: перестановочные тесты для проверки различных статистических гипотез.Нахождение p-значения перестановками из исходной выборки. Перестановочные тесты на однородность. Задача валидация модели. Перестановочные тесты для проверки независимости. Точный тест Фишера.
- Проверка гипотез с помощью бутсрепа. Проверка гипотез с помощью симуляций.Нахождение p-значения симуляциями, бутстрепом. Точный тест для пропорций.
Элементы контроля
- Контрольная работа 1
- Домашнее задание
- Контрольная работа 2
- Активность на занятиях
- Экзамен
Промежуточная аттестация
- Промежуточная аттестация (3 модуль)0.186 * Активность на занятиях + 0.188 * Домашнее задание + 0.188 * Контрольная работа 1 + 0.188 * Контрольная работа 2 + 0.25 * Экзамен
Список литературы
Рекомендуемая основная литература
- Gentle, J. E. (2009). Computational Statistics. Dordrecht: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=287877
- Ross, S. M. (2006). Simulation (Vol. 4th ed). Amsterdam: Academic Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=320768
Рекомендуемая дополнительная литература
- Anderson-Cook, C. M. (2006). Quantitative Risk Management: Concepts, Techniques, and Tools. Alexander J. McNeil, Rudiger Frey, and Paul Embrechts. Journal of the American Statistical Association, 1731. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsrep&AN=edsrep.a.bes.jnlasa.v101y2006p1731.1732