Углубленная статистика

Аспирантура 2019/2020

Статус: Курс по выбору

Направление: 44.06.01. Образование и педагогические науки

Кто читает: Институт образования

Когда читается: 2-й курс, 1 семестр

Формат изучения: без онлайн-курса

Преподаватели: Кузьмина Юлия Владимировна, Скрябин Максим Александрович

Язык: русский

Кредиты: 4

Контактные часы: 70

Полная версия программы учебной дисциплины

Аннотация

Дисциплина «Углубленная статистика» относится к циклу дисциплин по выбору и изучается на 2-м году обучения. Аспиранты должны хорошо разбираться в начальных и промежуточных статистических процедурах, уметь ставить исследовательскую задачу, разрабатывать исследовательскую гипотезу и в целом понимать сущность научного исследования. Опираясь на темы предыдущих курсов: (1) «Методология исследования и базовая статистика», (2) «Разработка инструментов измерения» и (3) «Углубленная психометрика», данный курс углубленно рассматривает статистические подходы и демонстрирует преимущества более тщательно проработанных исследований и высококачественных программ оценивания, базовые знания для которых являлись предметом изучения в предыдущих курсах. Например, регрессионные оценки МНК являются смещенными, когда надежность предикторов меньше 1. Введенные в данном блоке процедуры структурного выравнивания применяются в случае ненадежности предикторов, чтобы уточнить смещенные оценки коэффициентов регрессии. С опорой на первый блок изучается структурное сходство многих статистических процедур в рамках общей линейной модели (например, t-тесты для сравнения средних для независимых выборок, однофакторный дисперсионный анализ и регрессия МНК с бинарными фиктивными переменными), которые с разных сторон объясняют связь между переменными.

Цель освоения дисциплины

Целями освоения дисциплины «Углубленная статистика» являются: 1. Понимание того, как исследовательские проблемы и вопросы соотносятся с различными типами анализа данных 2. Понимание того, каким образом проверять различные статистические гипотезы и подготавливать данные, включая трансформацию данных и работу с пропущенными данными 3. Умение выбирать различные методы статистического анализа данных в соответствии с имеющимися исследовательскими вопросами и гипотезами, при учете структуры и ограничений имеющихся данных 4. Знание основных требований, возможностей и ограничений различных типов анализа данных 5. Понимание имеющихся тенденций, проблемных мест и дискуссий, касающихся применения различных методов анализа данных для разного типа данных и исследовательских вопросов 6. Умение ставить исследовательские вопросы и формулировать гипотезы для разного типа методов. 7. Умение критически осмысливать и содержательно интерпретировать результаты анализа данных при применении различных методов 8. Умение содержательно и точно описывать результаты анализа данных при применении различных методов с учетом основных требований и ограничений.

Планируемые результаты обучения

уметь выбирать соответствующие данным и исследовательским вопросам методы анализа данных
уметь проводить операции с матрицами
уметь оценивать параметры регрессии методом наименьших квадратов
уметь оценивать параметры модели регрессии и проверять соответствие моделей данным
уметь оценивать имеющиеся проблемы в данных и видеть способы их решения (пропущенные данные, трансформация данных и т.п.)
знать источники неверной спецификации модели регрессии
оценивать мощность регрессионных моделей
уметь оценивать и проверять качество модели логистической регрессии
применять многомерный дисперсионный анализ (МANOVA) и обобщенную линейную модель (GLM) регрессии
знать разные методы расчета параметров в моделях при структурном моделировании
знать способы оценки соответствия статистических моделей данным и сравнения моделей при структурном моделировании
уметь оценивать измерительную инвариантность
уметь применять и интерпретировать модели с факторами второго порядка и бифакторные модели
уметь осуществлять путевой анализ, включая оценку медиаторов и модераторов
уметь осуществлять анализ лонгитюдных данных с помощью структурного моделирования
знать необходимость, преимущества и ограничения многоуровневого регрессионного анализа и применять соответствующие методы анализа моделей
уметь анализировать различные типы многоуровневых моделей с фиксированными и изменяющимися параметрами
уметь анализировать многоуровневые модели с межуровневым взаимодействием
уметь оценивать параметры и интерпретировать результаты для обобщенной линейной модели многоуровневого анализа
уметь проводить анализ лонгитюдных данных в рамках многоуровневого анализа

Содержание учебной дисциплины

Типы статистических моделей
Сопоставление конфирматорной и эксплораторной моделей. Максимизация критерия R квадрат или подтверждение теории.
Обзор многомерных статистик
Алгебраическое и геометрическое представление, стоящее за статистическими понятиями. Матричное сложение, вычитание, умножение, инверсия. Собственные векторы и собственные значения. Геометрия многомерного пространства: расстояния, углы и корреляции. Векторные проекции.
Регрессия МНК
Цели использования. Парная и множественная регрессия. Оценка модели. Принцип метода наименьших квадратов. Проверка гипотез и значимости.
Регрессия. Оценка и допущения модели
Статистические свойства: наилучших линейных несмещённых оценок (BLUE). Типы оценок: Метод наименьших квадратов (OLS), Обобщенный метод наименьших квадратов (GLS), Метод взвешенных наименьших квадратов (WLS), Байесовские методы. Допущения регрессии МНК: анализ статистик согласия. Остатки, влиятельные наблюдения, автокорреляции. Мультиколлинеарность. Проверка надежности.
Регрессия. Спецификация модели
Процедуры выбора переменных: форсированный или одновременный ввод, последовательный ввод, пошаговый ввод, последовательное исключение. Выбор методом опоры на теорию и методом опоры на данные. Кодирование категориальных переменных. Редактирование и преобразование данных.
Регрессия. Источники неверной спецификации модели
Смешивающие переменные (confounding variables), подавляющие переменные (suppressors). Взаимодействия и нелинейные модели.
Регрессия. Мощность регрессионных моделей МНК
Ошибка первого и второго рода. Статистическая мощность. Связь между мощностью и размером выборки.
Логистическая регрессия
Цели использования. Дихотомические и мультиномиальные модели. Основные понятия: вероятность, шанс, логарифм шанса, коэффициент b, оценка отношения шансов exp(b). Критерий классификации: 0.5 против других пороговых значений. Ошибки первого и второго рода. Качество модели. Мощность логистических регрессионных моделей.
Многомерный дисперсионный анализ (МANOVA) и обобщенная линейная модель (GLM) регрессии
Цель. Многомерные и одномерные гипотезы, апостериорные критерии проверки. Статистическая мощность для многомерного дисперсионного анализа MANOVA. Интерпретация вывода.
Введение в моделирование структурными уравнениями (SEM)
Цели SEM. Моделирование латентных переменных, анализ ковариаций, структурная регрессия. Измерительные и структурные модели. Экзогенные и эндогенные конструкты. Отличие рефлективных и формативных конструктов. Примеры из практики. Различия между SEM и путевым анализом. Основные допущения и их проверка. Трансформация переменных, требования к используемым шкалам и возможности работы с номинальными, порядковыми шкалами. Методы оценивания: weighted least squares, maximum likelihood, restricted ML. Фиксированные, свободные и заданные параметры.
Соответствие моделей данным. Конфирматорный факторный анализ
Конфирматорный факторный анализ. Последовательность построения измерительной модели. Under-identified, just-identified and over-identified модели. Репродоцируемая матрица ковариаций. Типы индексов соответствия моделей данным. Процедура сравнения моделей. Изменения индексов соответствия моделей данным при изменении размера выборки. Modification indices Возможности проведения КФА при использовании дихотомических, порядковых, номинальных индикаторов.
Измерительная инвариантность
Определение и виды измерительной инвариантности. Цели оценивания измерительной инвариантности в мульти-групповом анализе и в лонгитюдных исследованиях. Последствия нарушения измерительной инвариантности. Последовательность оценивания измерительной инвариантности: configural invariance, metric invariance, scalar invariance, strict factor invariance (error invariance, factor variance invariance, factor covariance invariance, factor mean invariance). Особенности оценивания измерительной инвариантности при использовании дихотомических, порядковых и номинальных индикаторов.
Конфирматорный факторный анализ с факторами второго порядка и бифакторные модели
Значения и применение моделей с факторами второго порядка и бифакторных моделей в психологических и образовательных исследованиях. Концептуальные различия между моделями с факторами второго порядка и с бифакторными моделями. Требования к идентификации модели. Измерительная инвариантность для моделей с факторами второго порядка и бифакторных моделей.
Путевой анализ
Создание структурной модели и путевой анализ. Проблемы, возникающие при проведении путевого анализа с наблюдаемыми переменными. Типы агрегирования и их ограничения: путевой анализ с латентными переменными, путевой анализ с парселями и наблюдаемыми переменными. Перевод в парсели, как способ перевода наблюдаемых переменных в латентные конструкты: аргументы за и против. Модерация и медиация. Частичная и полная медиация. Общие подходы к каузальному медиационному анализу. Особенности оценки медиаторов и модераторов при разных типах медиаторов и модераторов: дихотомические, порядковые и номинальные. Модерирующие медиаторы и медиирующие модераторы. Подавляющие и спутывающие переменные.
Анализ лонгитюдных данных в рамках структурных моделей
Лонгитюдные данные: измерение лонгитюдной измерительной инвариантности. Выбор количества измерений и временных интервалов. Авто-регрессивные и перекрестно- лонгитюдные модели. Модели роста с латентными классами: общий подход, проблема выбора числа латентных классов.
Введение в многоуровневый регрессионный анализ. Вложенные структуры
Виды исследований и выборок, в которых используется многоуровневые методы анализа. Виды структур: 2, 3 и 4 уровневые структуры. Иерархические и неиерархические структуры. Структуры с пересекающейся классификацией. Структуры с множественным членством. Ошибка агрегации и экологическая ошибка, парадокс Симпсона. Вложенные структуры и корреляция остатков. Необходимость и преимущества многоуровневого анализа. Различия между уровнями и переменными, фиксированными и случайными классификациями. Размер и построение выборки для многоуровневого анализа. Методы оценки моделей: Maximum likelihood estimation, restricted maximum likelihood estimation, generalized least squares, generalized estimating equation.
Типы многоуровневых моделей: фиксированные и изменяющиеся параметры
Базовая модель (intercept-only model). Коэффициент интраклассовой корреляции, безусловный и условный. Статистическая мощность для вложенных моделей. Эффект ненулевого коэффициента интра-классовой корреляции на статистическую мощность. Эффект включения ковариат группового уровня на возрастание мощности. Расчет процента объясненной дисперсии для 1 и 2 уровня. Использование центрированных и стандартизованных переменных. Виды центрирования. Интерпретация моделей. Анализ соответствия моделей полученным данным. Модели со включенными предикторами. модель с независимыми переменными 1 уровня с неизменяющимся коэффициентом регрессии в группах (fixed slope and random intercept, One-Way ANCOVA with Random Effects), модель с независимыми переменными 1 уровня с изменяющимся коэффициентом регрессии в группах (random slope and random intercept), модель с независимыми переменными 2 уровня (Means As Outcomes Regression model). Ковариация между отклонениями интерцепта и коэффициентов регрессии.
Построение модели и выбор моделей. Меж-уровневое взаимодействие
Модель с взаимодействием переменных 1 и 2 уровней. Коэффициент интраклассовой корреляции, безусловный и условный. Расчет процента объясненной дисперсии для 1 и 2 уровня. Использование центрированных и стандартизованных переменных. Виды центрирования. Интерпретация моделей. Анализ соответствия моделей полученным данным. Исследовательские вопросы для каждой модели. Размер эффекта для многоуровневого взаимодействия. Сравнение моделей. Многоуровневая медиация.
Многоуровневое моделирование для зависимых переменных, не имеющих нормального распределения
Обобщенная линейная модель. Логит- и пробит анализ. Интерпретация логистических коэффициентов. Виды моделей многоуровневого анализа для бинарной переменной. Квазиправдоподобие. Unit-specific и population-average модели
Анализ лонгитюдных данных в рамках многоуровневого анализа: модели роста
Измерения, вложенные в индивидов. Сбалансированный и несбалансированный дизайн. Выбор переменной времени: измерения, возраст, когорты. Линейные нелинейные модели роста. Центрирование предикторов 1 уровня. Интерпретация моделей с фиксированными и изменяющимися коэффициентами переменной времени. Требования к выборке и проблемы статистической мощности в лонгитюдных исследованиях. Модерация и медиация.

Элементы контроля

Эссе
Самостоятельная работа
Методологическое эссе

Промежуточная аттестация

Промежуточная аттестация (I семестр)
0.3 * Методологическое эссе + 0.35 * Самостоятельная работа + 0.35 * Эссе

Программа дисциплины