Автоматическая обработка естественного языка

Бакалавриат 2019/2020

Статус: Курс по выбору (Фундаментальная и компьютерная лингвистика)

Направление: 45.03.03. Фундаментальная и прикладная лингвистика

Кто читает: Школа лингвистики

Где читается: Факультет гуманитарных наук

Когда читается: 4-й курс, 2 модуль

Формат изучения: без онлайн-курса

Преподаватели: Еникеева Екатерина Владимировна, Макарчук Илья Владимирович, Толдова Светлана Юрьевна

Язык: русский

Кредиты: 4

Контактные часы: 40

Полная версия программы учебной дисциплины

Аннотация

Курс знакомит студентов с основными сведениями об автоматической обработке речи, систематизирует знания об основных методах автоматического анализа текста и о современных задачах извлечения информации из текста, тренирует навык применения алгоритмов семантической обработки текста, формирует умение пользоваться инструментами для семантической обработки текста на русском языке.

Цель освоения дисциплины

овладение студентами основными методами автоматического анализа текста
знакомство с современными задачами извлечения информации из текста

Планируемые результаты обучения

владеет основными методами выделения ключевых слов к тексте
владеет основными методами выделения устойчивых словосочетаний, знаком с их преимуществами и недостатками
умеет применять методы разрешения семантической неоднозначности
умеет применять методы тематического моделирования
умеет определять семантически близкие слова
умеет использовать систему Natasha для написания правил по извлечению именованных сущностей
умеет применять методы автоматической классификации для извлечения тонального лексикона на основе большого корпуса текстов

Содержание учебной дисциплины

Квантитативные характеристики слов и использование их в автоматической обработке
Автоматический семантический анализ. Методы выделения тематически значимых слов в тексте. Ключевые слова. tf.idf, модификации Векторная модель. Вероятностная модель. (модель, основанная на релевантности, OKAPIBM25). Мера LogLikelihood для выделения лексических единиц, специфичных для коллекции текстов по сравнению с другой коллекцией текстов (выделение терминов предметной области). Мера странности (wierdness). Алгоритм RAKE.
Выделение устойчивых словосочетаний
Понятие устойчивых словосочетаний в лингвистике. Разные подходы. Основанное на частотности определение коллокаций. Параметры задачи: понятие окна, типы выделяемых семантических отношений в зависимости от окна. Частеречные фильтры. Метод среднего и среднеквадратичного отклонения. T-score. T-scoreдля разведения двух близких синонимов. Хи-квадрат. LogLikelihood. Поточечная взаимная информация (PMI). Роль синтаксиса при выделении коллокаций.
Методы разрешения семантической неоднозначности
Методы разрешения семантической неоднозначности, основанные на знаниях. Алгоритм Леска. WordNet. Алгоритмы, основанные на использовании лексикографической базы WordNet. Понятие семантического расстояния в WordNet. Методы автоматической классификации в задачах разрешения семантической неоднозначности (WSD). Наивный байесовский классификатор. Обучение без учителя при извлечении значений лексемы из неразмеченного корпуса (wordsenseinduction). Обучение с частичным применением учителя при разрешении семантической неоднозначности. Алгоритм Яровски
Тематическое моделирование
Латентно-семантический анализ. Метод сингулярного разложения матрицы. Латентное размещение Дирихле.
Определение семантической близости. Векторные модели
Дистрибутивная семантика, векторная модель слова. Эмбеддинги: word2vec, GloVe, AdaGram. Обучение моделей word2vec.
Применение методов семантической обработки к задачам извлечения информации из текста
Обзор задач и систем компьютерной лингвистики Постановка задач для выполнения курсового проекта: разработка ТЗ для создания системы обработки текста (синтеза текста, машинного перевода и т.п.), использующей модули автоматической обработки текста.

Элементы контроля

Домашние задания
Пересдается в течение недели после окончания пропуска по уважительной причине, но не позднее 10 дней до сессии.
Чтение статей и составление резюме
Проектная работа
По каждому из разделов готовится один проект; оценивается разработка ТЗ для создания системы обработки текста; взаимное рецензирование и обсуждение проекта; презентации проектов; окончательная версия проекта; рейтинг при оценке качества (F-меры). При пересдаче необходимо устранить недостатки проекта. Предполагается переработка проекта и его защита.
Экзамен
По общим правилам пересдачи экзамена, пропущенного по уважительной причине.

Промежуточная аттестация

Промежуточная аттестация (2 модуль)
0.3 * Домашние задания + 0.35 * Проектная работа + 0.1 * Чтение статей и составление резюме + 0.25 * Экзамен

Программа дисциплины