• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
01
Февраль

Методы анализа неоднородных данных и паттерн-анализ

2019/2020
Учебный год
RUS
Обучение ведется на русском языке
6
Кредиты
Статус:
Курс обязательный
Когда читается:
1-й курс, 3, 4 модуль

Преподаватели

Программа дисциплины

Аннотация

Чаще всего в социальных науках, в частности, в политологии, исследователям приходится работать с неоднородными данными. Примером могут выступать данные с панельной структурой (наличие как пространственного, так и временного измерения: данные по каждой стране из выборки представлены за несколько лет), с иерархической структурой (к примеру, в массиве представлены данные на индивидуальном и страновом уровне). В таком случае предположение об одинаковых параметрах для всех единиц анализа является неправдоподобным. Допустим, взаимосвязь между протестной активностью и доходом может быть разного характера в разных странах. Оценивание классической модели линейной регрессии в таком случае приводит к некорректным результатам статистической инференции. Курс «Методы анализа неоднородных данных и паттерн-анализ» посвящен изучению количественных методов, позволяющих учесть отсутствие независимости наблюдений в подгруппах выборки. Будут рассмотрены и критически проанализированы следующие методы: 1) корректировка с помощью робастных стандартных ошибок 2) регрессионный анализ на подвыборках 3) регрессионный анализ с включением переменных взаимодействия 4) моделирование с фиксированными эффектами 5) моделирование со смешанными эффектами, в частности, многоуровневое моделирование. Программное обеспечение – Python и RStudio. Преподавателем будут предложены конкретные исследования для обсуждения методологического подхода и соответствующие массивы данных для репликации результатов.
Цель освоения дисциплины

Цель освоения дисциплины

  • овладение статистическими методами, позволяющих учесть отсутствие независимости наблюдений в подгруппах выборки, для решения политологических и социально-экономических задач
Планируемые результаты обучения

Планируемые результаты обучения

  • Знает возможные стратегии работы с неоднородными данными и знает их область применения, корректно применяет и интерпретирует оценки моделей с переменными взаимодействия
  • Корректно интерпретирует результаты оценивания модели с фиксированными эффектами, знает область применения модели с фиксированными эффектами
  • Корректно интерпретирует оценки коэффициентов в моделях со смешанными эффектами, понимает различие между фиксированными и случайными эффектами в контексте модели со смешанными эффектами
  • Умеет выбрать и обосновать спецификацию модели со смешанными эффектами для анализа панельных данных, корректно интерпретирует оценки коэффициентов в моделях со смешанными эффектами
  • Корректно интерпретирует оценки логистических моделей со смешанными эффектами, знает их область применения
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение: основы работы с гетерогенной выборкой
    Типы структуры данных. Стратегии работы с неоднородным массивом данных: обсуждение преимуществ и ограничений. Pooled model + скорректированные стандартные ошибки. Разделение на подвыборки. Включение в модель переменных взаимодействия. Разумно ли ограничиваться линейным эффектом переменных взаимодействия? Обсуждение нелинейных эффектов. Инструменты визуализации.
  • Модели с фиксированными эффектами: возможности и ограничения
    Модель с фиксированными эффектами. Применение к кросс-секционным вложенным данным и панельным данным. Выбор адекватной модели: модель с фиксированными эффектами VS модель со случайными эффектами. Уточнение спецификации модели с фиксированными эффектами. Обобщенный метод наименьших квадратов (GLS). Реализуемый обобщенный метод наименьших квадратов. Панельно-скорректированные стандартные ошибки. Пространственная корреляция: суть, условия возникновения, последствия. Инструменты работы с пространственной корреляцией. Автокорреляция: суть, условия возникновения, последствия. Моделирование автокорреляции.
  • Модели со смешанными эффектами. Сравнение альтернативных подходов к работе с гетерогенной выборкой
    Модель со смешанными эффектами. Многоуровневая модель как частный случай модели со смешанными эффектами. Преимущества модели со смешанными эффектами по сравнению с альтернативными методами при работе с данными, имеющими иерархическую структуру. Содержательные задачи, решаемые посредством моделей со смешанными эффектами: применение в социальных науках. Обсуждение основных идей байесовского подхода. Почему многоуровневую модель можно назвать своеобразным компромиссом между классической статистикой и байесовским подходом? Что является источником априорной информации для получения распределения случайных эффектов? Формирование "веса" для правдоподобия выборки. Анализ кросс-секционных вложенных данных посредством моделей со смешанными эффектами. Сравнение со стратегией деления на подвыборки: обсуждение в контексте сравнения с многоуровневыми моделями эффекта сжатия, BLUP. Сравнение с моделями с фиксированными эффектами.
  • Анализ панельных данных при помощи моделей со смешанными эффектами
    Представление панельных данных как данных с иерархической структурой. Структура ковариационной матрицы случайных эффектов. Различие между фиксированными и случайными эффектами, их интерпретация. Спецификация модели. Методы оценивания. Визуализация результатов.
  • Логистические модели со смешанными эффектами
Элементы контроля

Элементы контроля

  • неблокирующий Домашние задания
  • неблокирующий Самостоятельные работы
  • неблокирующий Эссе
  • неблокирующий Презентация эссе
  • неблокирующий Экзаменационная работа
    Экзамен проводится в форме теста с открытыми и закрытыми вопросами с использованием асинхронного прокторинга. Экзамен проводится на платформе online HSE Moodle, прокторинг на платформе Экзамус (https://hse.student.examus.net). К экзамену необходимо подключиться за 15 минут. На платформе Экзамус доступно тестирование системы. Компьютер студента должен удовлетворять следующим требованиям: https://elearning.hse.ru/data/2020/05/07/1544135594/Технические%20требования%20к%20ПК%20студента.pdf) Для участия в экзамене студент обязан: заранее зайти на платформу прокторинга, провести тест системы, включить камеру и микрофон, подтвердить личность. Во время экзамена запрещено общаться (в социальных сетях, с людьми в комнате). Во время экзамена разрешено пользоваться конспектами. Кратковременным нарушением связи во время экзамена считается прерывание связи до 10 минут. Долговременным нарушением связи во время экзамена считается прерывание связи 10 минут и более. При долговременном нарушении связи студент не может продолжить участие в экзамене. Процедура пересдачи аналогична процедуре сдачи.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.2 * Домашние задания + 0.1 * Презентация эссе + 0.15 * Самостоятельные работы + 0.3 * Экзаменационная работа + 0.25 * Эссе
Список литературы

Список литературы

Рекомендуемая основная литература

  • Bradford S. Jones, & Marco R. Steenbergen. (1997). Modeling Multilevel Data Structures. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.F4700E2E
  • Econometric analysis of cross section and panel data, Wooldridge, J. M., 2002
  • Анализ панельных данных и данных о длительности состояний : учеб. пособие, Ратникова, Т. А., 2014

Рекомендуемая дополнительная литература

  • Green, D. P., Kim, S. Y., & Yoon, D. H. (2001). Dirty Pool. International Organization, (02), 441. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsrep&AN=edsrep.a.cup.intorg.v55y2001i02p441.468.44
  • Hainmueller, J., Mummolo, J., & Xu, Y. (2019). How Much Should We Trust Estimates from Multiplicative Interaction Models? Simple Tools to Improve Empirical Practice. Political Analysis, (02), 163. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsrep&AN=edsrep.a.cup.polals.v27y2019i02p163.192.00