• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Анализ и визуализация данных в R

2019/2020
Учебный год
RUS
Обучение ведется на русском языке
4
Кредиты
Статус:
Курс обязательный
Когда читается:
4-й курс, 1 модуль

Преподаватель


Руднев Максим Геннадьевич

читает лекции, ведет семинары и принимает экзамены/зачеты

Программа дисциплины
Аннотация
Курс является введением в основные понятия и команды языка R, представляет реа-лизацию как знакомых студентам методов анализа данных в этой среде (описательные ста-тистики, анализ главных компонент, кластерный и регрессионный анализы), так и новые ме-тоды: путевой анализ и конфирматорный факторный анализ. В курсе представлены основ-ные принципы работы в R, операции по анализу и презентации количественной информации. В результате освоения этого курса студенты будут способны реализовать и документиро-вать процесс исследования от сбора данных до (автоматизированной) публикации отчетов. Ключевая ценность, реализуемая в этом курсе – прозрачность и воспроизводимость коли-чественных исследований.
Цель освоения дисциплины
  • формирование компетенций, связанных с решением задач по анализу и визуализации количественных данных в социологии.
  • уметь применять путевой анализ и конфирматорный факторный анализ для анализа социологических данных
Результаты освоения дисциплины
  • Знать модель общего фактора Терстоуна. Уметь строить, модифицировать модели конфирматорного факторного анализа, интерпретировать статистики общего согласия и диагностировать локальное несогласие с данными.
  • Знать основные принципы структурного моделирования. Уметь строить путевой анализ, правильно интерпретировать статистики согласия модели.
  • Знать различные выразительные средства для визуализации данных и результатов анализа. Уметь строить графики с использованием ggplot2.
  • Считывать данные в R из внешних файлов и экспортировать.
  • Уметь использовать базовые команды языка R для создания, индексирования, сортировки, преобразования данных, а также элементы управления, в частности, циклы.
  • Уметь строить регрессионные, кластерные и раведывательные факторные модели в R, извлекать результаты и корректно их интепретировать.
Содержание учебной дисциплины
  • Введение в R
    Общая характеристика языка R. Базовые команды, пакеты в R. Знакомство с RStudio и R commander. Объекты и функции. Виды объектов. Понятие класса объекта. Типы хране-ния данных: векторы, двухмерные таблицы, матрицы, массивы, списки. Типы переменных: числовые, строчные, факторы. Виды пропущенных данных: NA, NaN. Способы работы с пропущенными данными. Понятие среды, ссылки на функции из разных пакетов, создание собственной среды. Циклы for, while, repeat. Создание собственной функции.
  • Чтение, преобразование и экспорт данных в R
    Функции для чтения, записи и манипуляции с данными из пакетов foreign, haven, car, dplyr, reshape2.
  • Анализ данных в R
    Линейные и логистические бинарные регрессии в lm и glm. Анализ главных компо-нент в prcomp и princom. Кластерный анализ в kmeans и hclust. Многомерное шкалирование в mds. Команда sapply и mapply. Дебаггинг. Оптимизация кода. Пакет stargazer. Создание автоматических отчетов, знакомство с rmarkdown.
  • Визуализация данных в R base и ggplot2
    Мотивы визуализации. Виды графиков. Связь между моделью анализа и графиками. Синтаксис ggplot2: qplot, geom, aes. Использование пространства координат: одно-, двух-, трех- мерные, сферические, географические системы координат. Использование символов и цветов. Создание анимированных графиков в пакете animation.
  • Основы структурно-ковариационного моделирования. Путевой анализ.
    Путевой анализ. Путевые диаграммы. Путевой коэффициент. Опосредованное воздействие (медиация) и взаимодействие (модерация). Рекурсия. Ограничения парамет-ров. Идентификация структурной модели. Правила нахождения возможности иденти-фицировать произвольную структурную модель. Переопределение модели. Ошибки структурной модели. Зависимость ошибок. Модификационные индексы. Оценки согласия модели. Оценки, основанные на Хи-квадрат, информационные критерии. Возможности по отвержению и выбору модели.
  • Конфирматорный факторный анализ
    Модели измерения латентных переменных: разведывательный и подтверждающий факторный анализ. Формативные и рефлективные измерительные инструменты. Этапы построения и модификации измерительной модели. Построение моделей эксплораторного и конфирматорного факторного анализа в паке-тах factanal и lavaan. Сравнение моделей в lavaan.
Элементы контроля
  • домашнее задание - 1: Управление данными, описательные статистики и регрессии в R (неблокирующий)
    Опоздание на неделю снижает оценку на 50%, на две - на 100%. 25% итоговой оценки.
  • домашнее задание - 2: Визуализация данных и автоматический отчет (неблокирующий)
    Опоздание на неделю снижает оценку на 50%, на две - на 100%. 25% итоговой оценки.
  • домашнее задание - 3: Путевой и конфирматорный факторный анализ (неблокирующий)
    Опоздание на неделю снижает оценку на 50%, на две - на 100%. 25% итоговой оценки.
  • Итоговый тест (неблокирующий)
    25% итоговой оценки.
Промежуточная аттестация
  • Промежуточная аттестация (1 модуль)
    0.25 * Итоговый тест + 0.25 * домашнее задание - 2: Визуализация данных и автоматический отчет + 0.25 * домашнее задание - 1: Управление данными, описательные статистики и регрессии в R + 0.25 * домашнее задание - 3: Путевой и конфирматорный факторный анализ
Список литературы
Рекомендуемая основная литература
  • Confirmatory factor analysis for applied research, Brown T. A., ISBN: 978-1-593-85274-0, 2006
  • Principles and practice of structural equation modeling, Kline R. B., ISBN: 978-1-606-23876-9, 2011
  • R in action : Data analysis and graphics with R, Kabacoff R. I., ISBN: 978-1-935182-39-9, 2011