Delivered at:: Big Data and Information Retrieval School

Course type:: Compulsory course

When:: 2 year, 1, 2 module

Instructors

Artemova, Ekaterina

Sarkisyan, Veronika

Полная версия программы учебной дисциплины

Аннотация

Данная дисциплина ставит своей целью изучение основных задач и методов обработки и анализа текстов, а также освоение программных систем и инструментов, в которых реализованы данные методы. Эти базовые знания и навыки необходимы в профессиональной деятельности специалистов по анализу данных и машинного обучения.

Цель освоения дисциплины

Изучение основных задач и методов обработки и анализа текстов

Планируемые результаты обучения

Знание методов обработки и анализа текстов

Содержание учебной дисциплины

Введение
Основные задачи обработки и анализа текстов. Актуальность обработки и анализа текстов. Краткий исторический экскурс по обработке и анализу текстов. Обзор существующих систем обработки и анализа текстов. Классификация систем обработки и анализа текстов.
Методы сбора и хранения данных
Форматы данных, способы хранения, принципы работы интернета. Краулинг. Regexp. Unicode.
Частотный анализ текстов
Модель мешка слов. Закон Ципфа. Закон Хипса. Векторное представление текстов. Релевантность в векторной модели. Расширения модели мешка слов. Реализация модели мешка слов в библиотеках Gensim и NLTK.
Морфологический анализ и разрешение неоднозначности
Задача морфологического анализа. Типы языков. Алгоритмы морфологического разбора. Морфологическая разметка. Омонимия и неоднозначность. Алгоритм разрешения омонимии. Скрытые Марковские модели. Декодирование в скрытых Марковских моделях.
Синтаксический анализ. Универсальные зависимости
Задача синтаксического разбора предложений. Модель составляющих. Вероятностные контекстно-свободные грамматики. Модель зависимостей. Универсальные зависимости. Парсинг зависимостей. Архитектура SyntaxNet
Выделение ключевых слов и словосочетаний
Лексический анализ. Словари и тезаурусы. Поиск синонимов. Частотные методы выделения ключевых слов и словосочетаний. Метрики совместной встречаемости. Выделение ключевых словосочетаний по морфологическим шаблонам. Выделение ключевых словосочетаний по синтаксическим шаблонам. Алгоритмы RAKE и TextRank.Программные средства для выделения ключевых слов: NLTK, Томита-парсер.
Векторная модель
Векторная модель документа, векторная модель слова. Поиск похожих текстов. Косинусная мера близости. Методы снижения размерности в векторной модели документа: сингулярное разложение, латентный семантический анализ. Связь с моделями скрытых тем. Латентное размещение Дирихле (LDA). Параметры модели. Выбор числа скрытых тем. Расширения модели LDA. Дистрибутивная семантика, векторная модель слова. Построение матрицы PPMI. Поиск близких слов по значению. Снижение размерности и факторизация матрицы PPMI. Эмбеддинги: word2vec, GloVe, AdaGram. Обучение моделей word2vec. Отрицательное сэмплирование.
Классификация текстов
Задачи классификации текстов и предложений по теме, тональности и жанру. Метод наивного Байеса, метод максимальной энтропии. Сверточные нейронные сети. Архитектура FastText.
Языковые модели
Счетные языковые модели. Проблема нулевых вероятностей. Преобразование Лапласа, преобразование Гуд-Тьюринга. Вероятностные нейронные языковые модели. Генерация текстов. Рекуррентные нейронные сети.
Классификация последовательностей
Задача классификации последовательностей. Частеречная разметка, определение семантических ролей, извлечение именованных сущностей. IOB разметка, IOBES разметка. Условные случайные поля.
Суммаризация текстов, вопросно-ответные системы
Абстрактивная и генеративная суммаризация текстов. Алгоритм TextRank. Вопросноответные системы. Архитектура энкодера-декодоры для вопросно-ответных систем и чат-ботов
Исправление опечаток
Модель зашумленного канала. Исправление опечаток по правила. Редакционное растояние.
Обработка речи, речевые технологии
Распознавание речи. Генерация речи.
Информационный поиск
Понятие релевантности. Использование векторной модели в задаче поиска. Косинусная мера релевантности. Использование языковой модели в задаче поиска. Обучение ранжированию. A|B - тестирование.
Мультимодальная обработка текстов
Связь обработки текстов с обработкой изображений. Генерация изображения по тексту. Поиск изображения по описанию.

Элементы контроля

Домашняя работа
Самостоятельная работа
Экзамен

Промежуточная аттестация

Промежуточная аттестация (2 модуль)
0.49 * Домашняя работа + 0.21 * Самостоятельная работа + 0.3 * Экзамен

Master’s Programme 'Financial Technologies and Data Analysis'

Contacts

Text Analysis. Generative Models

Instructors

Программа дисциплины

Аннотация

Цель освоения дисциплины

Планируемые результаты обучения

Содержание учебной дисциплины

Элементы контроля

Промежуточная аттестация

Список литературы

Рекомендуемая основная литература

Рекомендуемая дополнительная литература