Магистратура
2021/2022
Анализ и визуализация текстовых данных
Статус:
Курс по выбору (Языковые технологии в бизнесе и образовании)
Направление:
45.04.03. Фундаментальная и прикладная лингвистика
Кто читает:
Департамент филологии
Где читается:
Санкт-Петербургская школа гуманитарных наук и искусств
Когда читается:
1-й курс, 3, 4 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для всех кампусов НИУ ВШЭ
Преподаватели:
Калакуцкий Аркадий Владимирович,
Поздняков Иван Сергеевич
Прогр. обучения:
Языковые технологии в бизнесе и образовании
Язык:
русский
Кредиты:
5
Контактные часы:
64
Программа дисциплины
Аннотация
Курс посвящен методам анализа особого типа данных – текстовых. В ходе обучения студенты освоят импорт, особенности обработки такого типа данных в зависимости от решаемых задач, познакомятся с основными методами статистического, кластерного и регрессионного анализа, освоят методы визуализации результатов анализа текстовых данных на языке R, изучение которого входит в программу курса.
Цель освоения дисциплины
- Целями освоения дисциплины «Анализ и визуализация текстовых данных» являются: − освоение основ языка программирования R для анализа данных; − освоение методов предобработки текстовых данных в зависимости от типа решаемой задачи; − владение методами исследования текстовых данных с помощью описательной статистики; − ознакомление с основами методами многомерного анализа данных; − ознакомление с основными методами визуализации текстовых данных.
Планируемые результаты обучения
- Владеет основами языка программирования R
- Понимание дисперсионного анализа (ANOVA) и его разновидностей, умение провести тесты в R
- Понимание корреляции и коэффициентов корреляции, умение рассчитать коэффициенты корреляции в R
- Понимание линейной регрессии, ее связи с другими статистическими методами, оценка качества модели
- Знает основные лингвистические пакеты на R
- Владеет базовыми функциями plot(), hist(), boxplot() для быстрой визуализации данных
- Владеет навыками работы с пакетом quanteda для продвинутой обработки текстовых данных
- Использует пакет udpipe для токенизации и лемматизации данных в R
- Понимает t-тест и его непараметрических аналогов, умение провести тесты в R
- Понимание методов многомерного анализа текстовых данных и умение реализовать их с использованием возможностей языка R
- Понимание методов визуализации многомерных данных
Содержание учебной дисциплины
- Введение в функционирование сети Интернет
- Инструментарий совместной веб-разработки
- Современный инструментарий верстки
- Разработка бизнес-логики веб-приложений и контейнеризация
- Фреймворки для разработки веб-приложений
- Фоновая обработка задач
- HTML5 and CSS Fundamentals
- JavaScript Introduction
Элементы контроля
- Домашнее заданиеДомашнее задания представляют собой небольшое практические задание, которое выполняется студентами вне аудитории. Оценка за домашнее задание выставляется по 10-балльной шкале. Сданные работы не пересдаются. Задания возможно получать и в дистанционном формате.
- ЭкзаменЭкзамен проводится в форме решения задач. Студент вытягивает билет с двумя вопросами. На подготовку у студента есть полчаса. Преподаватель имеет право во время экзамена задать вопросы по другим темам курса. Предусмотрен дистанционный формат сдачи элемента контроля.