Магистратура
2021/2022
Компьютерная лингвистика
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс обязательный (Цифровые методы в гуманитарных науках)
Направление:
45.04.03. Фундаментальная и прикладная лингвистика
Кто читает:
Школа лингвистики
Где читается:
Факультет гуманитарных наук
Когда читается:
1-й курс, 2, 3 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для всех кампусов НИУ ВШЭ
Преподаватели:
Нестеренко Любовь Владимировна
Прогр. обучения:
Цифровые методы в гуманитарных науках
Язык:
русский
Кредиты:
3
Контактные часы:
32
Программа дисциплины
Аннотация
Курс знакомит студентов с основными понятиями и задачами компьютерной лингвистики, дает возможность овладеть навыками предобработки и структурирования текстовых данных, научиться интерпретировать информацию, полученную в ходе анализа корпусных данных, формирует умение проводить исследования с использованием инструментов компьютерной лингвистики, комбинировать различные подходы к решению профессиональных задач.
Цель освоения дисциплины
- Знакомство с основными направлениями компьютерной лингвистики
- Овладение техниками использования и применения на практике инструментов обработки и анализа текстовых данных
- Овладение навыками интерпретации результатов, полученных при анализе корпусных данных
Планируемые результаты обучения
- Знает основные понятия сетевого анализа
- Владеет навыками работы с Cytoscape
- Знает возможности сетевого анализа для анализа текстовой информации
- Знает как устроена морфологическая разметка
- Знает обозначения тэгов, используемые в морфологических анализаторах
- Знает основные задачи первичного анализа текста
- Знает различные метрики для выделения ключевых слов
- Знает современные инструменты и ресурсы для работы с текстовыми данными
- Знает современные корпуса и их разновидности
- Знаком с современными инструментами морфологического анализа
- Может дать определение понятию коллакация
- Может сформулировать отличие обычного частотного списка от списка слов, ранжированных по мере TF-IDF
- Ориентируется в направлениях и задачах компьютерной лингвистики
- Понимает, где и как использовать информацию о коллокатах слова
- Умеет пользоваться и применять на практике инструменты для извлечения именованных сущностей
- Умеет пользоваться корпусами, делать поисковые запросы, анализировать результат
- Умеет применять на практике инструменты морфологического анализа
- Умеет составлять и анализировать списки коллокаций
Содержание учебной дисциплины
- Введение в компьютерную лингвистику
- Морфологический анализ
- Корпусная лингвистика (задачи, инструменты)
- Коллокации и сочетаемость
- Частоты и ключевые слова
- Named Entities Recognition
- Сетевой анализ, работа с Cytoscape.
Промежуточная аттестация
- 2021/2022 учебный год 3 модуль0.2 * Домашнее задание 1 + 0.6 * Проектная работа + 0.2 * Домашнее задание 2
Список литературы
Рекомендуемая основная литература
- Speech and language processing, Jurafsky, D., 2014
Рекомендуемая дополнительная литература
- Lew, R., Frankenberg-Garcia, A., Rees, G. P., Roberts, J. C., & Sharma, N. (2018). ColloCaid: A Real-time Tool to Help Academic Writers with English Collocations.