• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2019/2020

Компьютерная лингвистика и анализ текста

Статус: Курс по выбору (Науки о данных)
Направление: 01.04.02. Прикладная математика и информатика
Когда читается: 1-й курс, 3, 4 модуль
Формат изучения: Full time
Прогр. обучения: Науки о данных
Язык: русский
Кредиты: 4

Программа дисциплины

Аннотация

Настоящая дисциплина охватывает изучение различных моделей автоматической обработки текста на естественном языке (ЕЯ), применяемых в современных информационных системах и затрагивающих несколько языковых уровней обрабатываемого текста, включая уровни морфологии, синтаксиса, дискурса и семантики. Изучаются также виды лингвистических ресурсов, используемых при обработке текстов, и методы их создания. Рассматриваются прикладные задачи, требующие многоуровневого анализа и синтеза текста (такие как машинный перевод, классификация и кластеризация текстов, извлечение информации и знаний из текста).
Цель освоения дисциплины

Цель освоения дисциплины

  • Главная цель изучения учебной дисциплины «Компьютерная лингвистика и анализ текста» – ознакомление с основными формальными моделями и технологиями, применяемыми при компьютерной обработке текстов на естественном языке, и с принципами построения необходимых лингвистических ресурсов, а также получение базовых навыков разработки прикладных программ в этой области.
Планируемые результаты обучения

Планируемые результаты обучения

  • Студенты знают основные уровни анализа и синтеза текста на ЕЯ, существующие модели статистического, морфологического и синтаксического анализа текстов и их применение в типичных прикладных программных системах обработки текстов.
  • Студенты понимают существенные отличия естественных языков от искусственных и особенности компьютерных моделей естественного языка.
  • Студенты знают принципы построения различных лингвистических ресурсов, включая корпуса текстов, терминологические словари, тезаурусы, онтологии.
  • Студенты применяют существующие инструментальные средства и лингвистические ресурсы для разработки прикладных систем обработки текстов на естественном языке.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение
    1. Компьютерная лингвистика и автоматическая обработка текстов на естественном языке (ЕЯ): основные задачи и история развития. Междисциплинарный характер направления, связь со смежными научными дисциплинами. 2. Особенности ЕЯ, понятия языкового знака и языковой системы. Принципиальные отличия естественных и искусственных (формальных) языков. Полисемия и омонимия. 3. Уровни языковой системы (от фонетики до дискурса), их взаимосвязь. Основные единицы текста. Уровень фонем и символов, синтаксический и морфологический уровни. 4. Понятие модели в компьютерной лингвистике. Основные этапы обработки текста и виды моделей. Лингвистический процессор и лингвистические ресурсы.
  • Морфологические модели
    1. Основные понятия морфологических моделей: морфема, аффикс, корень, основа, флексия. Морфемный состав слова, виды морфем. Словоформа и лексема. Основа и псевдооснова. Лемма как представитель лексемы. Словоизменительная парадигма, флективный класс. Особенности русской морфологии. 2. Морфологические модели на базе словаря. Словари основ и словари словоформ. Морфологический анализ и синтез. Виды морфоанализа: лемматизация, стемминг, полный морфоанализ. Программные модули автоматического морфологического анализа. Проблема разрешения морфологической омонимии. 3. Графематический анализ и сегментация текста. Виды сегментации. Токенизация. Проблемы графематического анализа, технологии его реализации на базе конечных автоматов и регулярных выражений.
  • Методы синтаксического анализа
    1. Различные подходы к анализу синтаксиса предложений ЕЯ. Основная задача синтаксического анализа. Синтаксические деревья: деревья непосредственных составляющих и деревья зависимостей. Синтаксические связи. Проективность предложений. Понятия синтаксического предиката, валентности и актанта, модели управления. 2. Методы синтаксического разбора на базе контекстно-свободных (КС) грамматик. Нисходящий и восходящий разбор. Синтаксический анализ на основе грамматик зависимостей. Синтаксические парсеры для английского и русского языков. 3. Частичный синтаксический анализ. Словосочетания и их основные синтаксические типы. Задачи синтаксической сегментации текста. Выделение синтаксических групп.
  • Статистические модели
    1. Статистические характеристики текстов ЕЯ. Статистика встречаемости букв и буквосочетаний: биграмм, триграмм, N-грамм. Статистика N-грамм для слов текста. Статистические языковые модели и их приложения. 2. Статистика встречаемости сочетаний слов. Типы словосочетаний по фразеологичности. Понятие коллокации. Методы автоматического извлечения устойчивые словосочетаний из текстов. Меры ассоциации и устойчивости.
  • Модели дискурса и семантики
    1. Характеристики связного текста (дискурса). Целостность и связность. Анафорические ссылки, кореференция, лексические повторы, дискурсивные слова. Тематическая и композиционная структура текста. Сверхфразовые единства. 2. Моделирование свойств связного текста. Теория риторических структур. Построение лексических цепочек, автоматическое разрешение анафорических ссылок и кореференции. 3. Модели представления семантики. Семантико-синтаксическая модель управления слов-предикатов, семантические роли. Лингвистический ресурс FrameNet: состав, принципы построения. Задача разметки семантических ролей.
  • Построение и применение лингвистических ресурсов
    1. Коллекции и корпуса текстов. Корпусная лингвистика. Типы и характеристики корпусов, виды разметки текстов. Корпусные менеджеры. Применение копусов. 2. Тезаурусы и онтологии. Смысловые (парадигматические) отношения лексических единиц. Лексический ресурс WordNet: состав, принципы построения. 3. Термины специальных областей. Автоматизация построения терминологических ресурсов: методы извлечения терминов и их связей.
  • Разработка приложений
    1. Подходы к разработке приложений: подход, основанный на знаниях (правилах), и подход, основанный на машинном обучении. Сравнение подходов. Основные показатели качества решения: точность, полнота, F-мера. 2. Машинный перевод (МП). Лингвистические стратегии машинного перевода и поколения систем МП. Автоматический перевод, основанный на правилах. Интерлингва. Статистический машинный перевод. Оценки качества машинного перевода. 3. Генерация текстов документов, особенности задачи. Стратегии синтеза текста. 4. Извлечение информации из текстов (Information Extraction). Виды извлекаемой информации: именованные сущности, их атрибуты и связи, факты. Лингвистические шаблоны и их использование. Инструментальные программные средства:. 5. Автоматический анализ тональности текстов и извлечение мнений из текстов, особенности задачи и подходы к ее решению. Аспектный анализ мнений. 6. Реферирование и аннотирование документов. Типы аннотаций: индикативная и информативная аннотация, аннотация по запросу, аннотация нескольких документов. Базовые методы аннотирования. 7. Приложения КЛ, основанные на векторной модели текста. Классификация и кластеризация документов. Распознавание авторства текстов, дубликатов документов.
Элементы контроля

Элементы контроля

  • неблокирующий Контрольная работа
    Письменная работа 60 минут
  • неблокирующий Домашнее задание
    Выдается для выполнения в течение 2 недель
  • неблокирующий Экзамен
    Письменная работа 80 минут. Оценка за дисциплину выставляется в соответствии с формулой оценивания от всех пройденных элементов контроля. Экзамен не проводится.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.35 * Домашнее задание + 0.35 * Контрольная работа + 0.3 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Indurkhya N., Damerau F. J. Handbook of natural language processing. – Chapman and Hall/CRC, 2010. – 704 pp.
  • Mitkov R. (ed.). The Oxford handbook of computational linguistics. – Oxford University Press, 2005.
  • Olive, J., Christianson, C., McCary, J. (ed.). Handbook of natural language processing and machine translation: DARPA global autonomous language exploitation. – Springer Science & Business Media, 2011.

Рекомендуемая дополнительная литература

  • Dale R., Moisl H., Somers H. (ed.). Handbook of natural language processing. – CRC Press, 2000. – 1015 pp.
  • Автоматическое понимание текстов : системы, модели, ресурсы, Леонтьева Н. Н., 2006