Автоматическая обработка текста

Бакалавриат 2020/2021

Лучший по критерию «Новизна полученных знаний»

Статус: Курс по выбору (Прикладная математика и информатика)

Направление: 01.03.02. Прикладная математика и информатика

Кто читает: Департамент анализа данных и искусственного интеллекта

Где читается: Факультет компьютерных наук

Когда читается: 4-й курс, 1, 2 модуль

Формат изучения: без онлайн-курса

Преподаватели: Ильвовский Дмитрий Алексеевич

Язык: русский

Кредиты: 5

Контактные часы: 60

Полная версия программы учебной дисциплины

Аннотация

Курс «Автоматическая обработка текстов» является вводным в проблематику компьютерной лингвистики и построения программных систем для обработки текстов на естественном языке. Изучаются основные методы автоматической обработки текста (АОТ), а также виды необходимых для этого лингвистических ресурсов. Обзорно рассматриваются современные приложения в области АОТ и принципы их построения. Лекции, включающие теоретический материал курса, дополняются практическими занятиями по изучению соответствующих интернет-ресурсов и прикладного программного обеспечения, а также домашними заданиями по их применению.

Цель освоения дисциплины

Освоение основ автоматической обработки текстов на естественном языке, включая базовые навыки работы с лингвистическими процессорами и ресурсами

Планируемые результаты обучения

Знать основные особенности неструктурированных текстов на ЕЯ и принципы их графематического, морфологического, синтаксического и статистического анализа
Понимать ограничения компьютерных моделей автоматической обработки текстов
Уметь применять готовые программные модули анализа текстов и открытые лингвистические ресурсы для решения частных задач АОТ
Иметь представление о видах лингвистических ресурсов, используемых в различных системах обработки текстов
Знать типичные прикладные системы в области АОТ и их архитектурные особенности

Содержание учебной дисциплины

Введение
1. Автоматическая обработка текстов на естественном языке (ЕЯ): основные задачи и особенности направления. Естественный язык как сложная система языковых знаков. Уровни языковой системы. Феномены ЕЯ: полисемия, синонимия, омонимия. 2. Лингвистические процессоры и лингвистические ресурсы. Этапы анализа текста. Обзор основных приложений АОТ.
Начальные этапы обработки текста
1. Графематический анализ и сегментация текста. Токенизация и разбиение на предложения. Виды токенов, обработка сложных случаев. 2. Основные понятия морфологии: словоформа, морфема, аффикс, корень, основа, флек-сия. Словоизменительная парадигма и морфологические параметры. Словарные и бессловарные модели морфологии. 3. Автоматический морфологический анализ и синтез. Виды морфоанализа: стемминг, лемматизация, полный морфоанализ. Принципы морфоанализа на базе словаря основ или сло-варя словоформ. Морфологические процессоры для русского языка.
Статистические характеристики текстов и корпусная лингвистика
1. Статистика словоупотреблений в текстах на ЕЯ. Абсолютные и относительные часто-ты словоформ и лексем. Закон Ципфа-Мандельброта и его интерпретация. 2. Статистика встречаемости символов и буквосочетаний: биграмм и триграмм, N-грамм. Задачи АОТ, решаемые на базе статистики символов. 3. Задачи корпусной лингвистики. Коллекции и корпуса текстов. Характеристики и состав типичного корпуса. Национальный корпус русского языка. 4. Статистика N-грамм для слов. Понятие статистической языковой модели. Использование статистики для автоматического выделения устойчивых словосочетаний языка.
Подходы к автоматическому анализу синтаксиса и семантики текста
1. Задачи синтаксического анализа ЕЯ. Синтаксические деревья непосредственных составляющих и деревья зависимостей. Синтаксические связи слов. Понятие модели управления слова-предиката. Примеры синтаксических парсеров. 2. Частичный синтаксический анализ. Понятие синтаксической сегментации текста. Автоматическое выделение словосочетаний (именных, предложных групп). 3. Основные способы представления смысла текста и модели представления знаний в искусственном интеллекте: семантические сети, язык предикатов. Семантический анализ текста на основе семантико-синтаксических моделей управления.
Лингвистические ресурсы
1. Словари для автоматической обработки текстов. Виды словарей. Тезаурус как словарь с семантическими связями единиц. Информационно-поисковые тезаурусы и рубрикаторы. 2. Понятие онтологии. Класификация онтологий. Лингвистическая онтология WordNet. 3. Дистрибутивная семантика и технология Word2Vec.
Прикладные задачи АОТ
1. Подходы к разработке приложений АОТ: инженерный подход и подход, основанный на машинном обучении. Основные показатели качества работы систем АОТ: точность, полнота, F-мера. 2. Информационный поиск в массивах полнотекстовых документов: основные понятия. Индексирование текстов, векторная модель документа. Булевский поиск, ранжированный поиск. Оценка релевантности документа. Поиск в сети Интернет, принципы работы поисковых машин. 3. Классификация и кластеризация текстов как задачи в области Text Mining. Обзор методов машинной классификации. Особенности кластеризации текстов. Обзор задач АОТ, решаемых на основе классификации текстов. 4. Автоматическое реферирование и аннотирование документов как смежные задачи информационного поиска. Основные стратегии сжатия текста. Типы аннотаций. 5. Машинный перевод. Стратегии машинного перевода, основанного на правилах. Статистический машинный перевод, принципы создания статистического переводчика. 6. Извлечение информации и знаний из текстов: особенности задачи и типы извлекаемых объектов. Понятие лингвистического шаблона для извлечения информации. Инструментальные средства для построения систем извлечения информации из текстов. 7. Автоматический анализ тональности текстов и извлечение мнений из текстов: особенности и подходы к решению.

Элементы контроля

Домашнее задание
Набранные за ДЗ баллы суммируются и нормализуются для выставления итоговой оценки за все ДЗ.
Вопросы по итогам лекции
Ответы на один или несколько вопросов в конце лекции или семинара. На ответ дается 5-10 минут. Правильный ответ засчитывается студенту в качестве одного "условного" балла. Студент, набравший 6 и более баллов по итогам курса получает дополнительно 0.5 к своей итоговой оценке.
Проект
Проект, который выполняется группой студентов в течение учебного курса.
Экзамен
Устный экзамен в форме ответа на вопросы из билетов. Для подготовки к ответу студенту дается не более 5 минут.

Промежуточная аттестация

Промежуточная аттестация (2 модуль)
Пром1 = Округление(0.3 ДЗ1 + 0.3 ДЗ2 + 0.4 Проект1) Пром2 = Округление(0.3 ДЗ3 + 0.3 ДЗ4 + 0.4 Проект2). Oвопросы=0,5 или 0 Автомат: при 1/2 Округление (Пром1+Пром2) >= 8 автоматически выставляется оценка за Экзамен = 1/2 Округление (Пром1+Пром2). Итоговая оценка по данной учебной дисциплине (округление арифметическое): Oитоговая = Минимум(0,3·Пром1 + 0,3·Пром2+0,4·Oэкзамен+Oответы на вопросы, 10)

Программа дисциплины