Магистратура
2022/2023
Анализ и визуализация текстовых данных
Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс обязательный (Языковые технологии в бизнесе и образовании)
Направление:
45.04.03. Фундаментальная и прикладная лингвистика
Кто читает:
Департамент филологии
Где читается:
Санкт-Петербургская школа гуманитарных наук и искусств
Когда читается:
1-й курс, 3, 4 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для всех кампусов НИУ ВШЭ
Преподаватели:
Литвинова Татьяна Александровна
Прогр. обучения:
Языковые технологии в бизнесе и образовании
Язык:
русский
Кредиты:
6
Контактные часы:
56
Программа дисциплины
Аннотация
Курс посвящен методам анализа особого типа данных – текстовых. В ходе обучения студенты освоят импорт, особенности обработки такого типа данных в зависимости от решаемых задач, познакомятся с основными методами статистического, кластерного и регрессионного анализа, освоят методы визуализации результатов анализа текстовых данных на языке R, изучение которого входит в программу курса.
Цель освоения дисциплины
- Целями освоения дисциплины «Анализ и визуализация текстовых данных» являются: − освоение основ языка программирования R для анализа данных; − освоение методов предобработки текстовых данных в зависимости от типа решаемой задачи; − владение методами исследования текстовых данных с помощью описательной статистики; − ознакомление с основами методами многомерного анализа данных; − ознакомление с основными методами визуализации текстовых данных.
Планируемые результаты обучения
- Владеет основами языка программирования R
- Понимание дисперсионного анализа (ANOVA) и его разновидностей, умение провести тесты в R
- Понимание корреляции и коэффициентов корреляции, умение рассчитать коэффициенты корреляции в R
- Понимание линейной регрессии, ее связи с другими статистическими методами, оценка качества модели
- Знает основные лингвистические пакеты на R
- Владеет базовыми функциями plot(), hist(), boxplot() для быстрой визуализации данных
- Владеет навыками работы с пакетом quanteda для продвинутой обработки текстовых данных
- Использует пакет udpipe для токенизации и лемматизации данных в R
- Понимает t-тест и его непараметрических аналогов, умение провести тесты в R
- Понимание методов многомерного анализа текстовых данных и умение реализовать их с использованием возможностей языка R
- Понимание методов визуализации многомерных данных
Содержание учебной дисциплины
- Тема 1. Основы работы в R. Объекты R
- Тема 2. Базовая описательная статистика в R. ANOVA. Линейная регрессия
- Тема 3. Основные пакеты для работы с текстовыми данными. Токенизация и лемматизация
- Тема 4. Анализ текстовых данных с использованием пакета quanteda
- Тема 5. Кластерный анализ.
- Тема 6. Базовые методы многомерного анализа данных и визуализации. Метод главных компонент (PCA)
- Тема 7. Продвинутые методы многомерного анализа данных и их реализация на языке R
- Тема 8. Идиолектные данные как многомерные данные. Методы анализа идиолектных данных на языке R
Элементы контроля
- Проектное заданиеПроектное задание представляет собой серию объединенных общей задачей индивидуальных практических заданий, которые выполняются студентами вне аудитории. Выполняется письменно, индивидуально, внеаудиторно. Готовое проектное задание направляется преподавателю по электронной почте. Преподаватель оценивает самостоятельную работу студентов по выполнению проектного задания – при этом оценивается правильность выбора метода решения задачи в соответствии с заранее установленным критериями.
- ЭкзаменЭкзамен проводится в форме решения задач. Студент выбирает билет с двумя вопросами (называет номер билета). На подготовку у студента есть полчаса. Преподаватель имеет право во время экзамена задать вопросы по другим темам курса. Предусмотрен дистанционный формат сдачи элемента контроля
Список литературы
Рекомендуемая основная литература
- Levshina, N. (2015). How to Do Linguistics with R : Data Exploration and Statistical Analysis. Amsterdam: John Benjamins Publishing Company. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1093048
Рекомендуемая дополнительная литература
- Silge, J., & Robinson, D. (2017). Text Mining with R : A Tidy Approach (Vol. First edition). Sebastopol, CA: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1533983