• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2021/2022

Анализ и визуализация текстовых данных

Статус: Курс обязательный (Компьютерная лингвистика)
Направление: 45.04.03. Фундаментальная и прикладная лингвистика
Когда читается: 1-й курс, 3, 4 модуль
Формат изучения: с онлайн-курсом
Охват аудитории: для всех кампусов НИУ ВШЭ
Преподаватели: Поздняков Иван Сергеевич
Прогр. обучения: Компьютерная лингвистика
Язык: русский
Кредиты: 5
Контактные часы: 64

Программа дисциплины

Аннотация

Данный курс посвящен современным методам анализа данных, в частности, методам анализа лингвистических данных. В ходе обучения студенты освоят импорт, препроцессинг данных, разведочный анализ, визуализацию данных и проведение статистических тестов. В качестве основного инструмента в курсе используется язык программирования R, изучение которого входит в программу курса.
Цель освоения дисциплины

Цель освоения дисциплины

  • Освоить основы языка программирования R для анализа данных
  • Освоить методы препроцессинга данных с помощью экосистемы пакетов tidyverse
  • Научиться исследовать данные с помощью описательной статистики и методов визуализации данных
  • Научиться формулировать статистические гипотезы
  • Ознакомиться с наиболее распространенными статистическими методами
  • Научиться применять статистические методы в зависимости от поставленной задачи
Планируемые результаты обучения

Планируемые результаты обучения

  • Владение базовыми функциями plot(), hist(), boxplot() для быстрой визуализации данных
  • Владение встроенными функциями для работы с текстовыми данными в R
  • Владение пакетами stringi и stringr для продвинутой обработки текстовых данных
  • Владение средствами для динамической визуализации данных
  • Владение языком грамматики графики и его практическом воплощением в пакете ggplot2
  • Владениями семейством функций для работы с функциями распределений в R
  • Знание основных операторов в R, умение работать со втроенными функциями, знание об основных типах данных в R
  • Знание основных описательных статистик и их значение
  • Знание основных пакетов tidyverse
  • Использование пакета udpipe для токенизации и лемматизации данных в R
  • Понимание t-теста и его непараметрических аналогов, умение провести тесты в R
  • Понимание дисперсионного анализа (ANOVA) и его разновидностей, умение провести тесты в R
  • Понимание кластерного анализа, умение провести кластерный анализ методом k-means в R
  • Понимание концепции tidy data, умение привести данные к формату tidy
  • Понимание корреляции и коэффициентов корреляции, умение рассчитать коэффициенты корреляции в R
  • Понимание линейной регрессии, ее связи с другими статистическими методами, оценка качества модели
  • Понимание основных структур в R: вектор, матрица, список, датафрейм
  • Понимание особенностей проведения множественной линейной регрессии по сравнению с простой линейной регрессией. Понимание концепции общей линейной модели
  • Понимание расширенных версий общей линейной моделей: обобщенной линейной модели, линейной модели со смешанными эффектами. Умение имплиментировать данные модели в R.
  • Понимание тестирования уровня значимости нулевой гипотезы
  • Понимание целей и возможностей анализа главных компонент, умение использовать анализ главных компонент в R
  • Уверенное использование среды RStudio
  • Умение аггрегировать данные с помощью dplyr
  • Умение использовать условные конструкции в R
  • Умение объединять связанные таблицы с помощью dplyr
  • Умение организовывать проекты и импортировать данные
  • Умение пользоваться функциями семейства apply() и их аналогами из пакета purrr
  • Умение совершать базовые операции в dplyr: выбор строк, колонок, создание новых колонок
  • Умение создавать пользовательские функции в R
  • Уменить устанавливать и подключать дополнительные пакеты для R
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Основы R
  • Основные структуры данных в R
  • Импорт данных и пакеты в R
  • Функциональное программирование в R
  • Препроцессинг данных в tidyverse
  • Текстовые данные в R
  • Описательная статистика
  • Визуализация данных в R
  • Основы статистики вывода
  • Базовые статистические тесты
  • Многомерные статистические методы
Элементы контроля

Элементы контроля

  • неблокирующий Экзамен
  • неблокирующий Хакатон
Промежуточная аттестация

Промежуточная аттестация

  • 2021/2022 учебный год 4 модуль
    0.6 * Экзамен + 0.4 * Хакатон
Список литературы

Список литературы

Рекомендуемая основная литература

  • Analyzing linguistic data : a practical introduction to statistics using R, Baayen, R. H., 2014
  • ggplot2 : elegant graphics for data analysis, Wickham, H., 2009
  • R for data science : import, tidy, transform, visualize, and model data, Wickham, H., 2017
  • Using multivariate statistics, Tabachnick, B.G., 2014
  • Using multivariate statistics, Tabachnik, B. G., 2007

Рекомендуемая дополнительная литература

  • Advanced R, Wickham, H., 2014
  • Silge, J., & Robinson, D. (2017). Text Mining with R : A Tidy Approach (Vol. First edition). Sebastopol, CA: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1533983