• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2021/2022

Анализ и визуализация текстовых данных

Статус: Курс обязательный (Компьютерная лингвистика)
Направление: 45.04.03. Фундаментальная и прикладная лингвистика
Когда читается: 1-й курс, 3, 4 модуль
Формат изучения: с онлайн-курсом
Охват аудитории: для всех кампусов НИУ ВШЭ
Прогр. обучения: Компьютерная лингвистика
Язык: русский
Кредиты: 5

Программа дисциплины

Аннотация

Данный курс посвящен современным методам анализа данных, в частности, методам анализа лингвистических данных. В ходе обучения студенты освоят импорт, препроцессинг данных, разведочный анализ, визуализацию данных и проведение статистических тестов. В качестве основного инструмента в курсе используется язык программирования R, изучение которого входит в программу курса.
Цель освоения дисциплины

Цель освоения дисциплины

  • Освоить основы языка программирования R для анализа данных
  • Освоить методы препроцессинга данных с помощью экосистемы пакетов tidyverse
  • Научиться исследовать данные с помощью описательной статистики и методов визуализации данных
  • Научиться формулировать статистические гипотезы
  • Ознакомиться с наиболее распространенными статистическими методами
  • Научиться применять статистические методы в зависимости от поставленной задачи
Планируемые результаты обучения

Планируемые результаты обучения

  • Владение средствами для динамической визуализации данных
  • Уверенное использование среды RStudio
  • Знание основных операторов в R, умение работать со втроенными функциями, знание об основных типах данных в R
  • Понимание основных структур в R: вектор, матрица, список, датафрейм
  • Умение организовывать проекты и импортировать данные
  • Уменить устанавливать и подключать дополнительные пакеты для R
  • Умение использовать условные конструкции в R
  • Умение создавать пользовательские функции в R
  • Умение пользоваться функциями семейства apply() и их аналогами из пакета purrr
  • Знание основных пакетов tidyverse
  • Умение совершать базовые операции в dplyr: выбор строк, колонок, создание новых колонок
  • Умение аггрегировать данные с помощью dplyr
  • Понимание концепции tidy data, умение привести данные к формату tidy
  • Умение объединять связанные таблицы с помощью dplyr
  • Владение встроенными функциями для работы с текстовыми данными в R
  • Владение пакетами stringi и stringr для продвинутой обработки текстовых данных
  • Использование пакета udpipe для токенизации и лемматизации данных в R
  • Знание основных описательных статистик и их значение
  • Владение базовыми функциями plot(), hist(), boxplot() для быстрой визуализации данных
  • Владение языком грамматики графики и его практическом воплощением в пакете ggplot2
  • Владениями семейством функций для работы с функциями распределений в R
  • Понимание тестирования уровня значимости нулевой гипотезы
  • Понимание t-теста и его непараметрических аналогов, умение провести тесты в R
  • Понимание дисперсионного анализа (ANOVA) и его разновидностей, умение провести тесты в R
  • Понимание корреляции и коэффициентов корреляции, умение рассчитать коэффициенты корреляции в R
  • Понимание линейной регрессии, ее связи с другими статистическими методами, оценка качества модели
  • Понимание особенностей проведения множественной линейной регрессии по сравнению с простой линейной регрессией. Понимание концепции общей линейной модели
  • Понимание расширенных версий общей линейной моделей: обобщенной линейной модели, линейной модели со смешанными эффектами. Умение имплиментировать данные модели в R.
  • Понимание кластерного анализа, умение провести кластерный анализ методом k-means в R
  • Понимание целей и возможностей анализа главных компонент, умение использовать анализ главных компонент в R
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Основы R
    - Среда RStudio. - Операторы, функции - Типы данных
  • Основные структуры данных в R
    - Вектора - Матрицы - Списки - Датафреймы
  • Импорт данных и пакеты в R
    - Работа проектами RStudio - Импорт данных - Проверка целостности загруженных данных - Установка пакетов в R
  • Функциональное программирование в R
    - Условные конструкции в R - Создание функций - Циклы - Семейство функций apply() и пакет purrr
  • Препроцессинг данных в tidyverse
    - Пакеты data.table и tidyverse: сходство и различия - Основы tidyverse: readr, tibble, magrittr - Базовые операции с данными в tidyverse: выбор строк и колонок, создание колонок - Агрегирование данных в dplyr - Концепция Tidy Data. Широкие и длинные таблицы, tidyr - Работа с реляционными данными в tidyverse
  • Текстовые данные в R
    - Базовые функции для работы со строковыми данными в R - Пакеты stringi и stringr для продвинутой работы со строками - Использование пакета udpipe для токенизации и лемматизации
  • Описательная статистика
    - центральные тенденции - меры разброса - ассиметрия и эксцесс - функции и пакеты для описательной статистики (psych, skimr)
  • Визуализация данных в R
    - Визуализация в R: базовые средства визуализации - Layered Grammar of Graphics и ggplot2 - Расширения для ggplot2 - Средства динамической визуализации в R: HTML-виджеты
  • Основы статистики вывода
    - Уровень значимости. Ошибки I и II рода— Выборка и генеральная совокупность - Виды распределений, параметры распределений - Нормальное распределение. Функции распределений в R - Оценка параметров, точечные и интервальные оценки, доверительный интервал - Проверка гипотез. Нулевая и альтернативная гипотеза, p-value
  • Базовые статистические тесты
    - z-критерий и t-критерий - Непараметрические методы - Дисперсионный анализ (ANOVA) и его разновидности - Корреляция, коэффициенты корреляции - Линейная регрессионная модель
  • Многомерные статистические методы
    - Расширения общей линейной модели: обобщенная линейная модель и линейная модель со смешанными эффектами - Кластерный анализ - Анализ главных компонент
Элементы контроля

Элементы контроля

  • неблокирующий Экзамен
  • неблокирующий Хакатон
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.4 * Хакатон + 0.6 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Analyzing linguistic data : a practical introduction to statistics using R, Baayen, R. H., 2014
  • ggplot2 : elegant graphics for data analysis, Wickham, H., 2009
  • R for data science : import, tidy, transform, visualize, and model data, Wickham, H., 2017
  • Using multivariate statistics, Tabachnick, B.G., 2014
  • Using multivariate statistics, Tabachnik, B. G., 2007

Рекомендуемая дополнительная литература

  • Advanced R, Wickham, H., 2014
  • Silge, J., & Robinson, D. (2017). Text Mining with R : A Tidy Approach (Vol. First edition). Sebastopol, CA: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1533983