• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Магистерская программа «Науки о данных (Data Science)»

21
Апрель

Вероятностно-статистические методы в теории принятия решений

2020/2021
Учебный год
RUS
Обучение ведется на русском языке
4
Кредиты
Статус:
Курс по выбору
Когда читается:
1-й курс, 3, 4 модуль

Преподаватель


Бурнаев Евгений Владимирович

Программа дисциплины

Аннотация

"За последние двадцать лет существенно возросла потребность в решении ряда практических задач таких как автоматическое обнаружение неисправностей (разладок, сбоев, аномалий и т.п.), обслуживание оборудования на основе автоматического контроля его состояния, обеспечение безопасности сложных технических и информационных систем (самолетов, судов, ракет, ядерных электростанций, различных интернет сервисов, и т.д.), автоматический контроль качества выпускаемой продукции, предсказание естественных катастрофических явлений (землятресения, цунами, и т.д.), мониторинг в биомедицине и финансовой сфере. Основная черта вышеперечисленных задач состоит в том, что по сути все они сводятся к выявлению момента резкого изменения (разладки) некоторых характеристик рассматриваемого объекта на основе статистических данных о других характеристиках этого объекта и/или детектированию наблюдений, которые по тем или иным статистическим свойствам значительно отличаются от большинства наблюдений из исследуемой генеральной совокупности. С развитием информатики появилась возможность построения автоматизированных информационных систем для статистической обработки огромного объема реальных данных с целью вынесения тех или иных суждений об истинных характеристиках процесса. Для создания таких систем с привлечением программных средств требуется прежде всего разработка соответствующих фундаментальных математических методов обработки поступающей и поступившей информации исходя из естественных критериев оптимальности. Именно поэтому в данном курсе: Рассматривается общая теория оптимальной остановки стохастических процессов, позволяющая строить оптимальные методы обработки поступающей и поступившей информации, в том числе и методы скорейшего обнаружения разладки. Рассматриваются особенности использования методов скорейшего обнаружения разладки и детектирования аномалий для решения практически задач в различных областях науки и техники. Предлагаемый курс позволит студентам с одной стороны ознакомиться с основными теоретическими свойствами алгоритмов скорейшего обнаружения разладки, а с другой стороны познакомит их с особенностями практической реализации и примерами применения современных алгоритмов скорейшего обнаружения разладки и детектирования аномалий."
Цель освоения дисциплины

Цель освоения дисциплины

  • Ознакомиться с основными результатами теории статистических выводов и с научиться пользоваться аппаратом статистики для решения практических задач.
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать фундаментальные результаты, лежащие в основе статистики
  • Владеть основными методами применямых в теории принятия решений
  • Уметь толковать смысл статистических величин и понятий, делать выводы из данных;
  • Уметь анализировать данных с использованием соответствующих библиотек языка Python
  • Уметь получать оценки статистических величин с помощью процедуры бутстрепа
  • Уметь получать параметрические оценки случайных величин
  • Уметь ставить и проверять статистические гипотезы
  • Уметь понижать размерность многомерных данных
  • Уметь сравнивать чувствительность моделей
  • Понимать статистические свойства регрессионных коэффициентов, уметь оценивать качество линейных регрессионных моделей и моделей на основе логистической регрессии
  • Уметь решать задачу регрессии с помощью нелинейных моделей
  • Уметь решать задачу регрессии с помощью непараметрических моделей.
  • Владеть байесовским подходом к оцениванию статистических величин. Уметь решать задачу регрессии с помощью гауссовских процессов
  • Уметь использовать суррогатное моделирование для решения практических задач
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение
    " Методологические основы прикладной математической статистики: Прикладная математическая статистика как самостоятельная научная дисциплина. Связь прикладной математической статистики с теорией вероятностей, теоретической математической статистикой и анализом данных Теоретико-вероятностный способ рассуждения в прикладной математической статистике Математические модели в прикладной математической статистике Робастность статистических процедур Описание структуры курса Основные цели и задачи суррогатного моделирования"
  • Основные задачи и методы теории статистических выводов
    Параметрические и непараметрические модели. Основные задачи: точечное оценивание, оверительные множества, тестирование гипотез, исследование зависимостей. Эмпирическая функция распределения. Статистические функционалы"
  • Моделирование Монте-Карло, бутстреп
    Оценка дисперсии на основе бутстрепа. Оценка доверительных интервалов на основе бутстрепа. Метод складного ножа"
  • Параметрическое оценивание
    Метод моментов. Метод максимального правдоподобия и его свойства. Дельта-метод. Случай векторного параметра. Параметрический бутстреп. Доверительное оценивание. Достаточная статистика. Экспоненциальное семейство распределений. EM-алгоритм"
  • Проверка гипотез
    Основные понятия теории проверки гипотез. Критерий Вальда. P-значение. Распределение хи-квадрат и критерий Пирсона. Критерий перестановок. Критерий на основе отношения правдоподобия. Множественные тесты. Критерий согласия. Критерий Неймана-Пирсона для случая двух простых гипотез, t-критерий. Применение методов проверки гипотез в компьютерных экспериментах. A/B тестирование, team draft interleaving тестирование.
  • Снижение размерности многомерных данных
    Снижение размерности в суррогатном моделировании. Постановка задачи снижения размерности. Обзор линейных методов снижения размерности (метод главных компонент, целенаправленное проектирование и т.п.). Обор локальных и нелинейных методов снижения размерности (метод нелинейных главных компонент, метод локального линейного вложения и т.п.) Новые постановки задач снижения размерности. Аппроксимация многомерных зависимостей как решение задачи снижения размерности. Моделирование на реальных данных: построение описания геометрии профилей крыла пассажирского самолета"
  • Оценка чувствительности модели
    Введение, начальные условия, области применения. Постановка задачи оценки глобальной чувствительности модели.Обзор методов оценки чувствительности модели в случае выборки данных. Обзор методов оценки чувствительности модели в случае черного ящика Прикладной пример: выделение параметров, которые сильнее всего влияют на уровень радиоактивных изотопов в воде (Level E test case). Обзор теоретических основ метода оценки чувствительности модели на основе индексов Соболя.
  • Линейная и логистическая регрессия.
    Стандартная линейная регрессия. Метод оценивания на основе минимизации невязок/максимизации правдоподобия. Свойства оценок метода наименьших квадратов. Прогнозирование. Множественная регрессия. Выбор модели. Критерии AIC, BIC. Логистическая регрессия. Методы регуляризации
  • Нелинейная регрессия
    Аддитивные модели. Аппроксимационные модели на основе параметрических словарей (сигмоидальные функции, гауссоподобные функции, и т.д.). Построение аппроксимационных моделей на основе параметрических словарей:. Методы инициализации структуры. Методы оценки параметров, учитывающие структуру модели. Методы адаптивной регуляризации в процесс оценки параметров модели
  • Непараметрическое оценивание
    Выбор оптимального соотношения между смещением и дисперсией. Гистограммы. Ядерная оценка плотности. Непараметрическая регрессия.
  • Байесовский подход к оцениванию
    Парадокс оценки Штайна. Три подхода к объяснению парадокса (байесовская оценка, урезание, регуляризация). Философия байесовского подхода. Байесовское оценивание и свойства получаемых оценок. Типы априорных распределений. Достоинства и недостатки байесовского подхода. Гауссовские процессы. Прогноз и оценка точности прогноза на основе гауссовских процессов Оценка параметров ковариационной функции Регуляризация логарифма правдоподобия Модель нестационарной ковариационной функции. Регрессия на основе гауссовских процессов как ядерная гребневая регрессия. Глобальная оптимизация на основе гауссовских процессов. Консолидация разноточных данных на основе моделей гауссовских процессов.
  • Использование статистических моделей и методов в задачах суррогатного моделирования и оптимизации
    Основные цели и задачи суррогатного моделирования. Особенности использование суррогатных моделей для оптимизации сложных технических объектов. Примеры применения суррогатного моделирования для решения реальных индустриальных задач. Оптимизация обшивки крыла самолета. Моделирование урбины.Прогнозирование энергозатратности маневров вертолета, и др.
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание
  • неблокирующий Домашнее задание
    Оценка за дисциплину выставляется в соответствии с формулой оценивания от всех пройденных элементов контроля. Экзамен не проводится.
  • неблокирующий Экзамен
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.3 * Домашнее задание + 0.3 * Домашнее задание + 0.4 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Prykhodko, S. B., & Kniaz, N. V. (2016). Development of nonlinear regression of the duration of the projects of preparing female boxers to competitions ; Построение нелинейной регрессии продолжительности выполнения проектов подготовки женщин-боксеров к соревнованиям ; Побудова нелінійної регресії тривалості виконання проектів підготовки жінок-боксерів до змагань. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.68AE5A35
  • Орлов, А. (2014). Компьютерно-Статистические Методы: Состояние И Перспективы. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.49E0E90F
  • Теория вероятностей и математическая статистика : учеб. пособие для вузов, Гмурман, В. Е., 1997
  • Теория вероятностей и математическая статистика : учеб. пособие для вузов, Гмурман, В. Е., 2000

Рекомендуемая дополнительная литература

  • Зудин, Н. А., & Беляев, В. В. (2016). Using of regression analysis for estimation of the real estate in the project ; Использование объектно-ориентированной статистической среды для определения стоимости земельного участка методом корреляционно-регрессионного анализа. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.D159F2D
  • Мельников, Г., & Губарев, В. (2014). Метод Построения Деревьев Регрессии На Основе Муравьиных Алгоритмов. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.93ACCB9B
  • Орлов, А. (2014). Компьютерно-Статистические Методы: Состояние И Перспективы. Политематический Сетевой Электронный Научный Журнал Кубанского Государственного Аграрного Университета, (103). Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsclk&AN=edsclk.15697901
  • Теория вероятностей и математическая статистика : Учеб. пособие для студентов, Шведов, А. С., 1995