• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2019/2020

Теория вероятностей и математическая статистика

Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус: Курс обязательный (Политология)
Направление: 41.03.04. Политология
Когда читается: 2-й курс, 1-3 модуль
Формат изучения: без онлайн-курса
Язык: русский
Кредиты: 5
Контактные часы: 106

Программа дисциплины

Аннотация

Обязательный курс «Теория вероятностей и математическая статистика» для профиля «Политический анализ» бакалаврской программы «Политология» продолжает курс «Математика и статистика» для профиля «Политический анализ» на втором курсе. Курс длится 3 модуля и включает в себя изучение продвинутых понятий и методов теории вероятностей, математической и прикладной статистики. В задачи курса входит в том числе освоение студентами статистического моделирования и анализа политологических данных в пакете R. Материалы этого курса используются в последующих обязательных для профиля «Политический анализ» курсах статистического анализа многомерных и других типов статистических данных, а так же необходимы для написания курсовых работ и ВКР по количественному анализа данных в политологии. Для успешного освоения курса необходимы хорошие знания курса «Математика и статистика» и базовые навыки работы с компьютером.
Цель освоения дисциплины

Цель освоения дисциплины

  • Овладеть знаниями в области теории вероятностей и математической статистики, необходимыми для освоения базовых методов анализа данных в социальных науках.
Планируемые результаты обучения

Планируемые результаты обучения

  • Умеет рассчитать условное математическое ожидание, знает сферы применения экспоненциального распределения и распределения Пуассона
  • Умеет получать оценки параметров методом моментов
  • Умеет получать оценки параметров методом максимального правдоподобия
  • Понимает различия между точечными и интервальными оценками, корректно интерпретирует доверительные интервалы, знает свойства точечных оценок
  • Умеет строить доверительный интервал для дисперсии
  • Умеет строить доверительный интервал для разности средних двух независимых нормальных выборок
  • Умеет при помощи Rstudio готовить данные к последующему анализу
  • Умеет рассчитывать и корректно интерпретировать величины ошибки I, II рода и мощности в рамках проверки гипотез
  • Умеет проверять статистические гипотезы при помощи p-value
  • Умеет проверять гипотезу о равенстве средних двух независимых выборок из нормального распределения
  • Знает сферу применения дисперсионного анализа
  • Умеет решать задачу о 2-х и более независимых выборок при помощи непараметрических критериев
  • Умеет выводить оценки коэффициентов в модели парной регрессии, корректно интерпретирует полученные оценки
  • Знает допущения классической линейной регрессии
  • Корректно интерпретирует оценки коэффициентов множественной регрессии, понимает потенциальные источники мультиколлинеарности
  • Умеет диагностировать гетероскедастичность и знает, какие поправки вносить в модель в условиях гетероскедастичности
  • Умеет выявлять влиятельные и нетипичные наблюдения
  • Знает критерии качества регрессионных моделей, умеет выбирать релевантную модель на основе информационных критериев
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Распределение вероятностей дискретных и непрерывных случайных величин. Условное распределение и условное математическое ожидание
    Испытание Бернулли и биномиальное распределение. Обобщение испытания Бернулли на случай k исходов (k > 2). Распределение Пуассона: формула расчета вероятности, функция распределения, область применения, содержательная интерпретация параметра λ, свойства; связь с биномиальным распределением. Понятие функции распределения и функции плотности распределения. Экспоненциальное распределение. Нормальное и стандартное нормальное распределение. Совместное распределение. Условное распределение. Условное математическое ожидание.
  • Понятие интервальной оценки. Распределение хи-квадрат. Распределение выборочной оценки дисперсии с нормальной выборкой
    Философия интервального оценивания. Схема бесконечного сэмплинга. Построение интервальной оценки. Распределение хи-квадрат: определение через стандартные нормальные величины и через плотность распределения. Числовые характеристики. Асимптотика. Интервальная оценка для дисперсии нормальной выборки. Доказательство. Доверительный интервал для дисперсии нормальной выборки. Критерий Фишера: нулевая гипотеза о равенстве дисперсий двух нормальных выборок, дисперсионное отношение Фишера (статистика Фишера), критерий проверки нулевой гипотезы о равенстве дисперсий двух нормальных выборок.
  • Распределение Стьюдента. Распределение стьюдентовской дроби (с доказательством). Доверительный интервал для разности средних двух независимых нормальных выборок
    Распределение Стьюдента: определение через стандартные нормальные величины и через плотность распределения. Числовые характеристики распределения Стьюдента. Доказательство того, что дробь Стьюдента имеет распределение Стьюдента.
  • Подготовка данных к анализу
    Практикум в R. Источники данных. Работа с разными форматами данных. Структура данных. Агрегирование данных. «Очистка» данных. Отбор необходимых для работы данных. Преобразование переменных. Создание новых переменных. Инструменты визуализации.
  • Точечные оценки
    Повторение: понятие оценки. Точечная и интервальная оценки. Идея метода моментов и его применение. Понятие правдоподобия. Идея метода максимального правдоподобия. Нахождение ММП-оценок параметров распределения Бернулли и Пуассона, биномиального, показательного, нормального и равномерного распределений. Точечная и интервальная оценки. Свойства точечных оценок: несмещенность, асимптотическая несмещенность, состоятельность, эффективность. Понятие среднего квадрата ошибки.
  • Проверка гипотез.
    Логика проверки статистических гипотез. Определение ошибки первого рода, ошибки второго рода. Графическое изображение. Взаимозависимость вероятности ошибки первого рода и вероятности ошибки второго рода. Возможность одновременного снижения вероятности ошибки первого рода и вероятности ошибки второго рода. Определение мощности критерия. Построение критических областей в дискретном и непрерывном случаях. Логика проверки статистических гипотез. Понятие минимального уровня значимости (p-value). Пример критерия знаков. Современный подход к проверке гипотез. P-value как условная вероятность. Почему p-value не вероятность ошибки I рода? Почему гипотезы можно отвергать, но нельзя принимать.
  • Параметрическая задача о 2 независимых выборках: критерий Стьюдента. Двойственность с доверительным интервалом для разности средних. Проблема Беренса-Фишера. Модель дисперсионного анализа. МНК-оценка параметров модели. Проверка гипотез о параметрах.
  • Непараметрический подход к задаче о 2 и k независимых выборках: критерий Уилкоксона и Краскела-Уоллиса
  • Парная регрессия: постановка задачи, МНК-оценки, проверка гипотезы про коэффициенты. Теорема Гаусса-Маркова и теорема Рао о свойствах МНК-оценок. Статистический вывод в регрессии: статистическая значимость коэффициентов. Критерии качества моделей, сравнение моделей. Разложение вариации.
    Корреляция Пирсона: смещенность. Сравнение двух коэффициентов Пирсона, преобразование Фишера, проверка гипотезы о равенстве двух коэффициентов. Регрессионный анализ. Модель парной линейной регрессии. Парная линейная регрессия как линейная аппроксимация условного матеметического ожидания. Оценивание коэффициентов парной линейной регрессии: метод наименьших квадратов. Интерпретация коэффициентов регрессии при непрерывных переменных
  • Модель множественной линейной регрессии
    МНК-оценки в матричном виде. Мультиколлинеарность. Источники мультиколлинеарности. Последствия мультиколлинеарности для статистического вывода. Способы диагностики. Меры борьбы с мультиколлинеарностью.
  • Гетероскедастичность
    Источники гетероскедастичности. Последствия гетероскедастичности для статистического вывода. Способы диагностики. Меры борьбы с гетероскедастичностью.
  • Нетипичные и влиятельные наблюдения
    Последствия и способы диагностики (межквартильный размах, коробчатая диаграмма Тьюки и статистические выбросы, мера потенциального влияния, мера Кука, графики остатков).
  • Критерии качества регрессионных моделей. Выбор модели
Элементы контроля

Элементы контроля

  • неблокирующий Домашние задания
  • неблокирующий Самостоятельные работы
  • неблокирующий Контрольная работа 1
  • неблокирующий Экзаменационная работа
    Экзамен проводится в письменной форме (тест с открытыми и закрытыми вопросами) с использованием асинхронного прокторинга. Экзамен проводится на платформе online HSE Moodle, прокторинг на платформе Экзамус (https://hse.student.examus.net). К экзамену необходимо подключиться за 15 минут. На платформе Экзамус доступно тестирование системы. Компьютер студента должен удовлетворять следующим требованиям: https://elearning.hse.ru/data/2020/05/07/1544135594/Технические%20требования%20к%20ПК%20студента.pdf) Для участия в экзамене студент обязан: заранее зайти на платформу прокторинга, провести тест системы, включить камеру и микрофон, подтвердить личность. Во время экзамена студентам запрещено: общаться (в социальных сетях, с людьми в комнате), списывать, пользоваться какими-либо материалами и конспектами. Студентам разрешено пользоваться калькулятором и делать записи при решении задач на черновике. Использование калькуляторов, встроенных в мобильные телефоны, смартфоны (равно как и другие технические устройства), запрещено. Кратковременным нарушением связи во время экзамена считается прерывание связи до 10 минут. Долговременным нарушением связи во время экзамена считается прерывание связи 10 минут и более. При долговременном нарушении связи студент не может продолжить участие в экзамене. Процедура пересдачи аналогична процедуре сдачи.
  • неблокирующий Контрольная работа 2
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (3 модуль)
    0.15 * Домашние задания + 0.2 * Контрольная работа 1 + 0.2 * Контрольная работа 2 + 0.15 * Самостоятельные работы + 0.3 * Экзаменационная работа
Список литературы

Список литературы

Рекомендуемая основная литература

  • Путеводитель по современной эконометрике : учеб.- метод. пособие для вузов, Вербик, М., 2008
  • Статистический анализ данных на компьютере, Тюрин, Ю. Н., 1998

Рекомендуемая дополнительная литература

  • Introductory econometrics: a modern approach, Wooldridge, J.M., 2016
  • Larocca, R. (2005). Reconciling Conflicting Gauss-Markov Conditions in the Classical Linear Regression Model. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.343D1CB
  • WORKSHOP How Not to Lie with Statistics: Avoiding Common Mistakes in Quantitative Political Science *. (n.d.). Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.E7A759A2