Магистратура
2020/2021
Анализ текстов. Генеративные модели
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Статус:
Курс обязательный (Финансовые технологии и анализ данных)
Направление:
01.04.02. Прикладная математика и информатика
Где читается:
Факультет компьютерных наук
Когда читается:
2-й курс, 1, 2 модуль
Формат изучения:
без онлайн-курса
Преподаватели:
Аксенов Сергей Андреевич,
Шаврина Татьяна Олеговна
Прогр. обучения:
Финансовые технологии и анализ данных
Язык:
английский
Кредиты:
6
Контактные часы:
64
Course Syllabus
Abstract
Данная дисциплина ставит своей целью изучение основных задач и методов обработки и анализа текстов, а также освоение программных систем и инструментов, в которых реализованы данные методы. Эти базовые знания и навыки необходимы в профессиональной деятельности специалистов по анализу данных и машинного обучения.
Course Contents
- ВведениеОсновные задачи обработки и анализа текстов. Актуальность обработки и анализа текстов. Краткий исторический экскурс по обработке и анализу текстов. Обзор существующих систем обработки и анализа текстов. Классификация систем обработки и анализа текстов.
- Методы сбора и хранения данныхФорматы данных, способы хранения, принципы работы интернета. Краулинг. Regexp. Unicode.
- Частотный анализ текстовМодель мешка слов. Закон Ципфа. Закон Хипса. Векторное представление текстов. Релевантность в векторной модели. Расширения модели мешка слов. Реализация модели мешка слов в библиотеках Gensim и NLTK.
- Морфологический анализ и разрешение неоднозначностиЗадача морфологического анализа. Типы языков. Алгоритмы морфологического разбора. Морфологическая разметка. Омонимия и неоднозначность. Алгоритм разрешения омонимии. Скрытые Марковские модели. Декодирование в скрытых Марковских моделях.
- Синтаксический анализ. Универсальные зависимостиЗадача синтаксического разбора предложений. Модель составляющих. Вероятностные контекстно-свободные грамматики. Модель зависимостей. Универсальные зависимости. Парсинг зависимостей. Архитектура SyntaxNet
- Выделение ключевых слов и словосочетанийЛексический анализ. Словари и тезаурусы. Поиск синонимов. Частотные методы выделения ключевых слов и словосочетаний. Метрики совместной встречаемости. Выделение ключевых словосочетаний по морфологическим шаблонам. Выделение ключевых словосочетаний по синтаксическим шаблонам. Алгоритмы RAKE и TextRank.Программные средства для выделения ключевых слов: NLTK, Томита-парсер.
- Векторная модельВекторная модель документа, векторная модель слова. Поиск похожих текстов. Косинусная мера близости. Методы снижения размерности в векторной модели документа: сингулярное разложение, латентный семантический анализ. Связь с моделями скрытых тем. Латентное размещение Дирихле (LDA). Параметры модели. Выбор числа скрытых тем. Расширения модели LDA. Дистрибутивная семантика, векторная модель слова. Построение матрицы PPMI. Поиск близких слов по значению. Снижение размерности и факторизация матрицы PPMI. Эмбеддинги: word2vec, GloVe, AdaGram. Обучение моделей word2vec. Отрицательное сэмплирование.
- Классификация текстовЗадачи классификации текстов и предложений по теме, тональности и жанру. Метод наивного Байеса, метод максимальной энтропии. Сверточные нейронные сети. Архитектура FastText.
- Языковые моделиСчетные языковые модели. Проблема нулевых вероятностей. Преобразование Лапласа, преобразование Гуд-Тьюринга. Вероятностные нейронные языковые модели. Генерация текстов. Рекуррентные нейронные сети.
- Классификация последовательностейЗадача классификации последовательностей. Частеречная разметка, определение семантических ролей, извлечение именованных сущностей. IOB разметка, IOBES разметка. Условные случайные поля.
- Суммаризация текстов, вопросно-ответные системыАбстрактивная и генеративная суммаризация текстов. Алгоритм TextRank. Вопросноответные системы. Архитектура энкодера-декодоры для вопросно-ответных систем и чат-ботов
- Исправление опечатокМодель зашумленного канала. Исправление опечаток по правила. Редакционное растояние.
- Обработка речи, речевые технологииРаспознавание речи. Генерация речи.
- Информационный поискПонятие релевантности. Использование векторной модели в задаче поиска. Косинусная мера релевантности. Использование языковой модели в задаче поиска. Обучение ранжированию. A|B - тестирование.
- Мультимодальная обработка текстовСвязь обработки текстов с обработкой изображений. Генерация изображения по тексту. Поиск изображения по описанию.
Assessment Elements
- Домашняя работа
- Самостоятельная работа
- Экзамен
- Домашняя работа
- Самостоятельная работа
- Экзамен
Interim Assessment
- Interim assessment (2 module)0.49 * Домашняя работа + 0.21 * Самостоятельная работа + 0.3 * Экзамен
Bibliography
Recommended Core Bibliography
- Indurkhya N., Damerau F. J. Handbook of natural language processing. – Chapman and Hall/CRC, 2010. – 704 pp.
- The Handbook of Computational Linguistics and Natural Language Processing [Электронный ресурс] / ed. by Alexander Clark, Chris Fox, Shalom Lappin; DB ebrary. – Chichester: John Wiley & Sons, 2013. – 203 p. – Режим доступа: https://ebookcentral.proquest.com/lib/hselibrary-ebooks/reader.action?docID=4035461&query=computational+linguistics
Recommended Additional Bibliography
- Perkins, J. Python Text Processing with NLTK 2.0 Cookbook: Use Python NLTK Suite of Libraries to Maximize Your Natural Language Processing Capabilities [Электронный ресурс] / Jacob Perkins; DB ebrary. – Birmingham: Packt Publishing Ltd, 2010. – 336 p.