• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2021/2022

Компьютерная лингвистика

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус: Курс обязательный (Цифровые методы в гуманитарных науках)
Направление: 45.04.03. Фундаментальная и прикладная лингвистика
Когда читается: 1-й курс, 2, 3 модуль
Формат изучения: без онлайн-курса
Охват аудитории: для всех кампусов НИУ ВШЭ
Преподаватели: Нестеренко Любовь Владимировна
Прогр. обучения: Цифровые методы в гуманитарных науках
Язык: русский
Кредиты: 3
Контактные часы: 32

Программа дисциплины

Аннотация

Курс знакомит студентов с основными понятиями и задачами компьютерной лингвистики, дает возможность овладеть навыками предобработки и структурирования текстовых данных, научиться интерпретировать информацию, полученную в ходе анализа корпусных данных, формирует умение проводить исследования с использованием инструментов компьютерной лингвистики, комбинировать различные подходы к решению профессиональных задач.
Цель освоения дисциплины

Цель освоения дисциплины

  • Знакомство с основными направлениями компьютерной лингвистики
  • Овладение техниками использования и применения на практике инструментов обработки и анализа текстовых данных
  • Овладение навыками интерпретации результатов, полученных при анализе корпусных данных
Планируемые результаты обучения

Планируемые результаты обучения

  • Знает основные понятия сетевого анализа
  • Владеет навыками работы с Cytoscape
  • Знает возможности сетевого анализа для анализа текстовой информации
  • Знает как устроена морфологическая разметка
  • Знает обозначения тэгов, используемые в морфологических анализаторах
  • Знает основные задачи первичного анализа текста
  • Знает различные метрики для выделения ключевых слов
  • Знает современные инструменты и ресурсы для работы с текстовыми данными
  • Знает современные корпуса и их разновидности
  • Знаком с современными инструментами морфологического анализа
  • Может дать определение понятию коллакация
  • Может сформулировать отличие обычного частотного списка от списка слов, ранжированных по мере TF-IDF
  • Ориентируется в направлениях и задачах компьютерной лингвистики
  • Понимает, где и как использовать информацию о коллокатах слова
  • Умеет пользоваться и применять на практике инструменты для извлечения именованных сущностей
  • Умеет пользоваться корпусами, делать поисковые запросы, анализировать результат
  • Умеет применять на практике инструменты морфологического анализа
  • Умеет составлять и анализировать списки коллокаций
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в компьютерную лингвистику
  • Морфологический анализ
  • Корпусная лингвистика (задачи, инструменты)
  • Коллокации и сочетаемость
  • Частоты и ключевые слова
  • Named Entities Recognition
  • Сетевой анализ, работа с Cytoscape.
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание 1
  • неблокирующий Домашнее задание 2
  • неблокирующий Проектная работа
Промежуточная аттестация

Промежуточная аттестация

  • 2021/2022 учебный год 3 модуль
    0.2 * Домашнее задание 1 + 0.6 * Проектная работа + 0.2 * Домашнее задание 2
Список литературы

Список литературы

Рекомендуемая основная литература

  • Speech and language processing, Jurafsky, D., 2014

Рекомендуемая дополнительная литература

  • Lew, R., Frankenberg-Garcia, A., Rees, G. P., Roberts, J. C., & Sharma, N. (2018). ColloCaid: A Real-time Tool to Help Academic Writers with English Collocations.