• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Automatic Text Processing

2019/2020
Academic Year
RUS
Instruction in Russian
5
ECTS credits
Course type:
Elective course
When:
4 year, 1, 2 module

Instructor

Программа дисциплины

Аннотация

Курс «Автоматическая обработка текстов» является вводным в проблематику компьютерной лингвистики и построения программных систем для обработки текстов на естественном языке. Изучаются основные методы автоматической обработки текста (АОТ), а также виды необходимых для этого лингвистических ресурсов. Обзорно рассматриваются современные приложения в области АОТ и принципы их построения. Лекции, включающие теоретический материал курса, дополняются практическими занятиями по изучению соответствующих интернет-ресурсов и прикладного программного обеспечения, а также домашними заданиями по их применению.
Цель освоения дисциплины

Цель освоения дисциплины

  • Освоение основ автоматической обработки текстов на естественном языке, включая базовые навыки работы с лингвистическими процессорами и ресурсами
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать основные особенности неструктурированных текстов на ЕЯ и принципы их графематического, морфологического, синтаксического и статистического анализа
  • Понимать ограничения компьютерных моделей автоматической обработки текстов
  • Уметь применять готовые программные модули анализа текстов и открытые лингвистические ресурсы для решения частных задач АОТ
  • Иметь представление о видах лингвистических ресурсов, используемых в различных системах обработки текстов
  • Знать типичные прикладные системы в области АОТ и их архитектурные особенности
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение
    1. Автоматическая обработка текстов на естественном языке (ЕЯ): основные задачи и особенности направления. Естественный язык как сложная система языковых знаков. Уровни языковой системы. Феномены ЕЯ: полисемия, синонимия, омонимия. 2. Лингвистические процессоры и лингвистические ресурсы. Этапы анализа текста. Обзор основных приложений АОТ.
  • Начальные этапы обработки текста
    1. Графематический анализ и сегментация текста. Токенизация и разбиение на предложения. Виды токенов, обработка сложных случаев. 2. Основные понятия морфологии: словоформа, морфема, аффикс, корень, основа, флек-сия. Словоизменительная парадигма и морфологические параметры. Словарные и бессловарные модели морфологии. 3. Автоматический морфологический анализ и синтез. Виды морфоанализа: стемминг, лемматизация, полный морфоанализ. Принципы морфоанализа на базе словаря основ или сло-варя словоформ. Морфологические процессоры для русского языка.
  • Статистические характеристики текстов и корпусная лингвистика
    1. Статистика словоупотреблений в текстах на ЕЯ. Абсолютные и относительные часто-ты словоформ и лексем. Закон Ципфа-Мандельброта и его интерпретация. 2. Статистика встречаемости символов и буквосочетаний: биграмм и триграмм, N-грамм. Задачи АОТ, решаемые на базе статистики символов. 3. Задачи корпусной лингвистики. Коллекции и корпуса текстов. Характеристики и состав типичного корпуса. Национальный корпус русского языка. 4. Статистика N-грамм для слов. Понятие статистической языковой модели. Использование статистики для автоматического выделения устойчивых словосочетаний языка.
  • Подходы к автоматическому анализу синтаксиса и семантики текста
    1. Задачи синтаксического анализа ЕЯ. Синтаксические деревья непосредственных составляющих и деревья зависимостей. Синтаксические связи слов. Понятие модели управления слова-предиката. Примеры синтаксических парсеров. 2. Частичный синтаксический анализ. Понятие синтаксической сегментации текста. Автоматическое выделение словосочетаний (именных, предложных групп). 3. Основные способы представления смысла текста и модели представления знаний в искусственном интеллекте: семантические сети, язык предикатов. Семантический анализ текста на основе семантико-синтаксических моделей управления.
  • Лингвистические ресурсы
    1. Словари для автоматической обработки текстов. Виды словарей. Тезаурус как словарь с семантическими связями единиц. Информационно-поисковые тезаурусы и рубрикаторы. 2. Понятие онтологии. Класификация онтологий. Лингвистическая онтология WordNet. 3. Дистрибутивная семантика и технология Word2Vec.
  • Прикладные задачи АОТ
    1. Подходы к разработке приложений АОТ: инженерный подход и подход, основанный на машинном обучении. Основные показатели качества работы систем АОТ: точность, полнота, F-мера. 2. Информационный поиск в массивах полнотекстовых документов: основные понятия. Индексирование текстов, векторная модель документа. Булевский поиск, ранжированный поиск. Оценка релевантности документа. Поиск в сети Интернет, принципы работы поисковых машин. 3. Классификация и кластеризация текстов как задачи в области Text Mining. Обзор методов машинной классификации. Особенности кластеризации текстов. Обзор задач АОТ, решаемых на основе классификации текстов. 4. Автоматическое реферирование и аннотирование документов как смежные задачи информационного поиска. Основные стратегии сжатия текста. Типы аннотаций. 5. Машинный перевод. Стратегии машинного перевода, основанного на правилах. Статистический машинный перевод, принципы создания статистического переводчика. 6. Извлечение информации и знаний из текстов: особенности задачи и типы извлекаемых объектов. Понятие лингвистического шаблона для извлечения информации. Инструментальные средства для построения систем извлечения информации из текстов. 7. Автоматический анализ тональности текстов и извлечение мнений из текстов: особенности и подходы к решению.
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание
    Домашние задания, набранные за них баллы суммируются и нормализуются для выставления итоговой оценки за все ДЗ.
  • неблокирующий Самостоятельная работа
    Самостоятельные работы в аудитории на 10-20 минут, набранные за них баллы суммируются и нормализуются для выставления итоговой оценки за все СР.
  • неблокирующий Контрольная работа
    Письменная работа на 60 минут.
  • неблокирующий Экзамен
    Письменная работа 80 минут.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (2 модуль)
    Накопленная оценка за первый и второй модуль рассчитывается (с округлением до целого арифметическим способом) по формуле:<br /> O<sub>накопленная</sub> = 0,3·О<sub>к/р</sub> + 0,4·О<sub>д/з</sub> + 0,3· О<sub>сам. аудит. работа</sub>,<br /> где О<sub>к/р</sub> – оценка письменной контрольной работы (по десятибалльной системе).<br /> Итоговая оценка по данной учебной дисциплине, согласно следующей формуле (округление арифметическое):<br /> О<sub>дисциплина</sub> = 0,8·О<sub>накопленная</sub> + 0,2·О<sub>экзамен</sub>,<br /> где О<sub>экзамен</sub> – оценка по десятибалльной системе за письменную работу непосредственно на экзамене.<br />Если студента устраивает оценка, накопленная за первый и второй модуль, он может не писать экзамен.<br />
Список литературы

Список литературы

Рекомендуемая основная литература

  • Indurkhya N., Damerau F. J. Handbook of natural language processing. – Chapman and Hall/CRC, 2010. – 704 pp.

Рекомендуемая дополнительная литература

  • Dale R., Moisl H., Somers H. (ed.). Handbook of natural language processing. – CRC Press, 2000. – 1015 pp.
  • Olive, J., Christianson, C., McCary, J. (ed.). Handbook of natural language processing and machine translation: DARPA global autonomous language exploitation. – Springer Science & Business Media, 2011.