Анализ текстов. Генеративные модели

Магистратура 2020/2021

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»

Статус: Курс обязательный (Финансовые технологии и анализ данных)

Направление: 01.04.02. Прикладная математика и информатика

Кто читает: Департамент больших данных и информационного поиска

Где читается: Факультет компьютерных наук

Когда читается: 2-й курс, 1, 2 модуль

Формат изучения: без онлайн-курса

Преподаватели: Аксенов Сергей Андреевич, Шаврина Татьяна Олеговна

Прогр. обучения: Финансовые технологии и анализ данных

Язык: английский

Кредиты: 6

Контактные часы: 64

Full Syllabus Ask Question

Abstract

Данная дисциплина ставит своей целью изучение основных задач и методов обработки и анализа текстов, а также освоение программных систем и инструментов, в которых реализованы данные методы. Эти базовые знания и навыки необходимы в профессиональной деятельности специалистов по анализу данных и машинного обучения.

Learning Objectives

Изучение основных задач и методов обработки и анализа текстов

Expected Learning Outcomes

Знание методов обработки и анализа текстов

Course Contents

Введение
Основные задачи обработки и анализа текстов. Актуальность обработки и анализа текстов. Краткий исторический экскурс по обработке и анализу текстов. Обзор существующих систем обработки и анализа текстов. Классификация систем обработки и анализа текстов.
Методы сбора и хранения данных
Форматы данных, способы хранения, принципы работы интернета. Краулинг. Regexp. Unicode.
Частотный анализ текстов
Модель мешка слов. Закон Ципфа. Закон Хипса. Векторное представление текстов. Релевантность в векторной модели. Расширения модели мешка слов. Реализация модели мешка слов в библиотеках Gensim и NLTK.
Морфологический анализ и разрешение неоднозначности
Задача морфологического анализа. Типы языков. Алгоритмы морфологического разбора. Морфологическая разметка. Омонимия и неоднозначность. Алгоритм разрешения омонимии. Скрытые Марковские модели. Декодирование в скрытых Марковских моделях.
Синтаксический анализ. Универсальные зависимости
Задача синтаксического разбора предложений. Модель составляющих. Вероятностные контекстно-свободные грамматики. Модель зависимостей. Универсальные зависимости. Парсинг зависимостей. Архитектура SyntaxNet
Выделение ключевых слов и словосочетаний
Лексический анализ. Словари и тезаурусы. Поиск синонимов. Частотные методы выделения ключевых слов и словосочетаний. Метрики совместной встречаемости. Выделение ключевых словосочетаний по морфологическим шаблонам. Выделение ключевых словосочетаний по синтаксическим шаблонам. Алгоритмы RAKE и TextRank.Программные средства для выделения ключевых слов: NLTK, Томита-парсер.
Векторная модель
Векторная модель документа, векторная модель слова. Поиск похожих текстов. Косинусная мера близости. Методы снижения размерности в векторной модели документа: сингулярное разложение, латентный семантический анализ. Связь с моделями скрытых тем. Латентное размещение Дирихле (LDA). Параметры модели. Выбор числа скрытых тем. Расширения модели LDA. Дистрибутивная семантика, векторная модель слова. Построение матрицы PPMI. Поиск близких слов по значению. Снижение размерности и факторизация матрицы PPMI. Эмбеддинги: word2vec, GloVe, AdaGram. Обучение моделей word2vec. Отрицательное сэмплирование.
Классификация текстов
Задачи классификации текстов и предложений по теме, тональности и жанру. Метод наивного Байеса, метод максимальной энтропии. Сверточные нейронные сети. Архитектура FastText.
Языковые модели
Счетные языковые модели. Проблема нулевых вероятностей. Преобразование Лапласа, преобразование Гуд-Тьюринга. Вероятностные нейронные языковые модели. Генерация текстов. Рекуррентные нейронные сети.
Классификация последовательностей
Задача классификации последовательностей. Частеречная разметка, определение семантических ролей, извлечение именованных сущностей. IOB разметка, IOBES разметка. Условные случайные поля.
Суммаризация текстов, вопросно-ответные системы
Абстрактивная и генеративная суммаризация текстов. Алгоритм TextRank. Вопросноответные системы. Архитектура энкодера-декодоры для вопросно-ответных систем и чат-ботов
Исправление опечаток
Модель зашумленного канала. Исправление опечаток по правила. Редакционное растояние.
Обработка речи, речевые технологии
Распознавание речи. Генерация речи.
Информационный поиск
Понятие релевантности. Использование векторной модели в задаче поиска. Косинусная мера релевантности. Использование языковой модели в задаче поиска. Обучение ранжированию. A|B - тестирование.
Мультимодальная обработка текстов
Связь обработки текстов с обработкой изображений. Генерация изображения по тексту. Поиск изображения по описанию.

Assessment Elements

Домашняя работа
Самостоятельная работа
Экзамен
Домашняя работа
Самостоятельная работа
Экзамен

Interim Assessment

Interim assessment (2 module)
0.49 * Домашняя работа + 0.21 * Самостоятельная работа + 0.3 * Экзамен

Bibliography

Recommended Core Bibliography

Indurkhya N., Damerau F. J. Handbook of natural language processing. – Chapman and Hall/CRC, 2010. – 704 pp.
The Handbook of Computational Linguistics and Natural Language Processing [Электронный ресурс] / ed. by Alexander Clark, Chris Fox, Shalom Lappin; DB ebrary. – Chichester: John Wiley & Sons, 2013. – 203 p. – Режим доступа: https://ebookcentral.proquest.com/lib/hselibrary-ebooks/reader.action?docID=4035461&query=computational+linguistics

Recommended Additional Bibliography

Perkins, J. Python Text Processing with NLTK 2.0 Cookbook: Use Python NLTK Suite of Libraries to Maximize Your Natural Language Processing Capabilities [Электронный ресурс] / Jacob Perkins; DB ebrary. – Birmingham: Packt Publishing Ltd, 2010. – 336 p.

Course Syllabus