Магистратура
2025/2026





Анализ данных: продвинутый уровень
Статус:
Курс обязательный (Анализ данных для государства и общества)
Кто читает:
Департамент социологии
Когда читается:
2-й курс, 1, 2 модуль
Охват аудитории:
для своего кампуса
Язык:
русский
Кредиты:
6
Программа дисциплины
Аннотация
Данная дисциплина является продолжением курса «Анализ данных». Этот курс готовит студентов к сбору, описанию и анализу данных с использованием передовых статистических инструментов. Темы первого модуля включают расширенную обработку данных, обработку отсутствующих данных, анализ выживания и моделирование выбора. Во втором модуле в фокусе дисциплины находятся вопросы о каузальности и каузальной ориентации. Курс включает лекции, практические задания и два индивидуальных проекта.
Цель освоения дисциплины
- Цель этого курса - дать обзор передовых статистических методов, которые используются для анализа данных. Студенты научатся использовать эти методы на практике, а также выбирать корректные методы для специфической структуры данных и аргументированно обосновывать свой выбор
Планируемые результаты обучения
- Различает корреляцию и каузальность. Объясняет основные подходы к изучению каузальности
- Способен разработать эксперимент для оценки эффекта воздействия
- Владеет методами балансировки экспериментальной и контрольной групп, чтобы сделать их сопоставимыми для каузального вывода
- Применяет квази-экспериментальные методы в анализе результатов
- Имеет представление о DAGs и их применении в каузальном анализе
- Идентифицирует проблемы в данных.
- Получает робастные оценки путем корректировки смещения выборки
- Умеет восстанавливать пропущенные значения путем множественной импутации.
- Использует метод максимального правдоподобия и модели дискретного выбора.
- Моделирует временного измерение в данных
Содержание учебной дисциплины
- Основы причинно-следственного вывода
- Рандомизированные эксперименты
- Наблюдаемые данные (observational studies) и каузальный вывод
- Квази-экспериментальные методы
- Ненаправленные графы (directed acyclic graphs)
- Проблемы данных: что может пойти не так?
- Корректировка смещения выборки
- Работа с пропущенными данными.
- Метод максимального правдоподобия
- Модели длительности
Элементы контроля
- ЭкзаменЭкзамен проводится в форме самостоятельной домашней работы. На выполнение заданий отводится 48 часов Работы, сданные после дедлайна, штрафуются на 1 балл за каждый час просрочки
- Проект 2Проект потребует от студентов продемонстрировать навыки работы с пропущенными значениями и подходами, основанными на методе максимального правдоподобия.
- Домашние задания (практика)По каждой изученной теме студенты получают домашнее задание. Задание оценивается по 10-бальной шкале Срок выполнения задания - одна неделя. В случае нарушения срока штраф 1 балл за каждую неделю просрочки
- Проект 1Студенты должны продемонстрировать свои навыки применения методов причинно-следственного вывода и обосновать свой выбор метода.
Промежуточная аттестация
- 2025/2026 2nd module0.4 * Домашние задания (практика) + 0.2 * Проект 1 + 0.2 * Проект 2 + 0.2 * Экзамен
Список литературы
Рекомендуемая основная литература
- Advanced statistics in research : reading, understanding, and writing up data analysis results, Hatcher, L., 2013
- An introduction to statistical methods and data analysis, Ott, R. L., 2001
- Cramer D. Advanced Quantitative Data Analysis. 2003.
- Data analysis using regression and multilevel/hierarchical models, Gelman, A., 2009
- Horowitz, J. L. (2018). Bootstrap Methods in Econometrics. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsarx&AN=edsarx.1809.04016
- Regression and other stories, Gelman, A., 2021
- The book of why : the new science of cause and effect, Pearl, J., 2018
Рекомендуемая дополнительная литература
- Aguirregabiria, V., & Carro, J. M. (2021). Identification of Average Marginal Effects in Fixed Effects Dynamic Discrete Choice Models.
- Gelman, A., & Hill, J. (2007). Data Analysis Using Regression and Multilevel/Hierarchical Models. Cambridge University Press.