• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Сбор, управление и анализ данных о социальных процессах

2023/2024
Учебный год
RUS
Обучение ведется на русском языке
6
Кредиты
Статус:
Курс по выбору
Когда читается:
1-й курс, 3, 4 модуль

Преподаватели

Программа дисциплины

Аннотация

В ходе курса студенты научатся базовым методам сбора, подготовки к анализу, визуализации и анализа данных в программе R. Курс ориентирован на практическое освоение методов работы на реальных социологических данных. Слушатели также познакомятся с современными исследованиями в области социологии образования и труда.
Цель освоения дисциплины

Цель освоения дисциплины

  • Научить студентов базовым методам сбора, подготовки к анализу, визуализации и анализа данных в программе R
Планируемые результаты обучения

Планируемые результаты обучения

  • Студенты умеют создавать, отбирать элементы, выполнять операции с основными типами и структурами данных в R
  • Студенты умеют работать с условиями, циклами, функциями в R
  • Студенты умеют импортировать данные в R из внешних файлов и сохранять данные в разных форматах
  • Студенты умеют готовить данные к анализу в R
  • Студенты могут объяснить основные принципы визуализации данных
  • Студенты умеют строить основные типы графиков в R
  • Студенты умеют проводить сравнение средних и дисперсионный анализ в R, могут проверить допущения анализа, визуализировать результаты и дать их корректную интерпретацию
  • Студенты могут объяснить концепции ошибок 1 и 2 типа, статистической мощности и значимости, бутстрепа
  • Студенты могут рассчитать в R коэффициенты корреляции Пирсона, Спирмена, критерий Х-квадрат Пирсона для оценки связи переменных, могут проверить допущения анализа, визуализировать результаты и дать их корректную интерпретацию
  • Студенты могут объяснить ключевые понятия и задачи обучения с учителем и без учителя
  • Студенты умеют построить линейную регрессию (МНК) в R, в том числе используя L1- и L2-регуляризацию, сделать предсказания, оценить качество моделей, сделать проверку допущений и диагностировать выбросы и мультиколлинеарность, визуализировать и корректно интерпретировать результаты
  • Студенты умеют провести анализ и импутацию пропусков в данных
  • Студенты могут объяснить метрики бинарной и мультиклассовой классификации
  • Студенты умеют делать классификацию в R, используя разнообразные методы (наивный байесовский классификатор, логистическая регрессия, метод ближайших соседей, деревья решений, метод опорных векторов), могут подбирать оптимальные параметры, оценивать качество моделей и корректно интерпретировать результаты
  • Студенты умеют использовать ансамбли алгоритмов в R
  • Знают типы алгоритмов кластеризации
  • Могут провести кластерный анализ различными алгоритмами используя пакеты языка R
  • Знают шаги алгоритмов PCA, T-SNE, UMAP
  • Могут понизить размерность данных используя пакеты языка R
  • Знают основы синтаксиса HTML
  • Могут скачать и распарсить HTML страницу и HTML-сайт
  • Знают принципы REST архитектуры
  • Могут собрать данные VK используя REST-API
  • Могут сделать анализ временных рядов с помощью пакетов языка R
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Знакомство с R
  • Подготовка данных к анализу
  • Визуализация данных
  • Проверка гипотез
  • Связь между переменными
  • Линейная регрессия (МНК)
  • Классификация
  • Кластеризация
  • Алгоритмы понижения размерности
  • Анализ временных рядов
  • Сбор данных
Элементы контроля

Элементы контроля

  • неблокирующий Подготовка данных к анализу и визуализация
    Домашняя работа включает задания на подготовку данных к анализу и построение графиков
  • неблокирующий Проверка гипотез, оценка связи, МНК
    Домашняя работа включает задания на подготовку данных к анализу, анализ и интерпретацию результатов
  • неблокирующий Классификация
    Домашняя работа включает задания на подготовку данных к анализу, анализ и интерпретацию результатов
  • неблокирующий Кластеризация, алгоритмы понижения размерности
    Домашняя работа включает задания на подготовку данных к анализу, анализ и интерпретацию результатов
  • неблокирующий Анализ временных рядов
    Домашняя работа включает задания на подготовку данных к анализу, анализ и интерпретацию результатов
Промежуточная аттестация

Промежуточная аттестация

  • 2023/2024 4th module
    0.2 * Анализ временных рядов + 0.2 * Классификация + 0.2 * Кластеризация, алгоритмы понижения размерности + 0.2 * Подготовка данных к анализу и визуализация + 0.2 * Проверка гипотез, оценка связи, МНК
Список литературы

Список литературы

Рекомендуемая основная литература

  • Bruce, P. C., & Bruce, A. (2017). Practical Statistics for Data Scientists : 50 Essential Concepts (Vol. First edition). Sebastopol, CA: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1517577
  • Long, J. D., & Teetor, P. (2019). R Cookbook : Proven Recipes for Data Analysis, Statistics, and Graphics: Vol. Second edition. O’Reilly Media.
  • R in action : Data analysis and graphics with R, Kabacoff, R. I., 2011
  • Мастицкий, С. Э. Визуализация данных с помощью ggplot2 / С. Э. Мастицкий. — Москва : ДМК Пресс, 2017. — 222 с. — ISBN 978-5-97060-470-0. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/107895 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Мастицкий, С. Э. Статистический анализ и визуализация данных с помощью R / С. Э. Мастицкий, В. К. Шитиков. — Москва : ДМК Пресс, 2015. — 496 с. — ISBN 978-5-97060-301-7. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/73072 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Храмов, Д. А. Сбор данных в Интернете на языке R / Д. А. Храмов. — Москва : ДМК Пресс, 2017. — 280 с. — ISBN 978-5-97060-459-5. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/97350 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • Field, A. V. (DE-588)128714581, (DE-627)378310763, (DE-576)186310501, aut. (2012). Discovering statistics using R Andy Field, Jeremy Miles, Zoë Field. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edswao&AN=edswao.363067604
  • King, R. S. (2015). Cluster Analysis and Data Mining : An Introduction. Mercury Learning & Information.
  • Principal component analysis, Jolliffe, I. T., 2010
  • Wickham H. ggplot2: elegant graphics for data analysis. Second edition. Cham: Springer, 2016. 260 p.