Анализ и визуализация текстовых данных

Магистратура 2021/2022

Статус: Курс обязательный (Компьютерная лингвистика)

Направление: 45.04.03. Фундаментальная и прикладная лингвистика

Кто читает: Школа лингвистики

Где читается: Факультет гуманитарных наук

Когда читается: 1-й курс, 3, 4 модуль

Формат изучения: с онлайн-курсом

Охват аудитории: для всех кампусов НИУ ВШЭ

Преподаватели: Поздняков Иван Сергеевич

Прогр. обучения: Компьютерная лингвистика

Язык: русский

Кредиты: 5

Контактные часы: 64

Полная версия программы учебной дисциплины

Аннотация

Данный курс посвящен современным методам анализа данных, в частности, методам анализа лингвистических данных. В ходе обучения студенты освоят импорт, препроцессинг данных, разведочный анализ, визуализацию данных и проведение статистических тестов. В качестве основного инструмента в курсе используется язык программирования R, изучение которого входит в программу курса.

Цель освоения дисциплины

Освоить основы языка программирования R для анализа данных
Освоить методы препроцессинга данных с помощью экосистемы пакетов tidyverse
Научиться исследовать данные с помощью описательной статистики и методов визуализации данных
Научиться формулировать статистические гипотезы
Ознакомиться с наиболее распространенными статистическими методами
Научиться применять статистические методы в зависимости от поставленной задачи

Планируемые результаты обучения

Владение базовыми функциями plot(), hist(), boxplot() для быстрой визуализации данных
Владение встроенными функциями для работы с текстовыми данными в R
Владение пакетами stringi и stringr для продвинутой обработки текстовых данных
Владение средствами для динамической визуализации данных
Владение языком грамматики графики и его практическом воплощением в пакете ggplot2
Владениями семейством функций для работы с функциями распределений в R
Знание основных операторов в R, умение работать со втроенными функциями, знание об основных типах данных в R
Знание основных описательных статистик и их значение
Знание основных пакетов tidyverse
Использование пакета udpipe для токенизации и лемматизации данных в R
Понимание t-теста и его непараметрических аналогов, умение провести тесты в R
Понимание дисперсионного анализа (ANOVA) и его разновидностей, умение провести тесты в R
Понимание кластерного анализа, умение провести кластерный анализ методом k-means в R
Понимание концепции tidy data, умение привести данные к формату tidy
Понимание корреляции и коэффициентов корреляции, умение рассчитать коэффициенты корреляции в R
Понимание линейной регрессии, ее связи с другими статистическими методами, оценка качества модели
Понимание основных структур в R: вектор, матрица, список, датафрейм
Понимание особенностей проведения множественной линейной регрессии по сравнению с простой линейной регрессией. Понимание концепции общей линейной модели
Понимание расширенных версий общей линейной моделей: обобщенной линейной модели, линейной модели со смешанными эффектами. Умение имплиментировать данные модели в R.
Понимание тестирования уровня значимости нулевой гипотезы
Понимание целей и возможностей анализа главных компонент, умение использовать анализ главных компонент в R
Уверенное использование среды RStudio
Умение аггрегировать данные с помощью dplyr
Умение использовать условные конструкции в R
Умение объединять связанные таблицы с помощью dplyr
Умение организовывать проекты и импортировать данные
Умение пользоваться функциями семейства apply() и их аналогами из пакета purrr
Умение совершать базовые операции в dplyr: выбор строк, колонок, создание новых колонок
Умение создавать пользовательские функции в R
Уменить устанавливать и подключать дополнительные пакеты для R