• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Text Analysis. Generative Models

2019/2020
Academic Year
RUS
Instruction in Russian
5
ECTS credits
Course type:
Compulsory course
When:
2 year, 1, 2 module

Instructors

Программа дисциплины

Аннотация

Данная дисциплина ставит своей целью изучение основных задач и методов обработки и анализа текстов, а также освоение программных систем и инструментов, в которых реализованы данные методы. Эти базовые знания и навыки необходимы в профессиональной деятельности специалистов по анализу данных и машинного обучения.
Цель освоения дисциплины

Цель освоения дисциплины

  • Изучение основных задач и методов обработки и анализа текстов
Результаты освоения дисциплины

Результаты освоения дисциплины

  • Знание методов обработки и анализа текстов
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение
    Основные задачи обработки и анализа текстов. Актуальность обработки и анализа текстов. Краткий исторический экскурс по обработке и анализу текстов. Обзор существующих систем обработки и анализа текстов. Классификация систем обработки и анализа текстов.
  • Методы сбора и хранения данных
    Форматы данных, способы хранения, принципы работы интернета. Краулинг. Regexp. Unicode.
  • Частотный анализ текстов
    Модель мешка слов. Закон Ципфа. Закон Хипса. Векторное представление текстов. Релевантность в векторной модели. Расширения модели мешка слов. Реализация модели мешка слов в библиотеках Gensim и NLTK.
  • Морфологический анализ и разрешение неоднозначности
    Задача морфологического анализа. Типы языков. Алгоритмы морфологического разбора. Морфологическая разметка. Омонимия и неоднозначность. Алгоритм разрешения омонимии. Скрытые Марковские модели. Декодирование в скрытых Марковских моделях.
  • Синтаксический анализ. Универсальные зависимости
    Задача синтаксического разбора предложений. Модель составляющих. Вероятностные контекстно-свободные грамматики. Модель зависимостей. Универсальные зависимости. Парсинг зависимостей. Архитектура SyntaxNet
  • Выделение ключевых слов и словосочетаний
    Лексический анализ. Словари и тезаурусы. Поиск синонимов. Частотные методы выделения ключевых слов и словосочетаний. Метрики совместной встречаемости. Выделение ключевых словосочетаний по морфологическим шаблонам. Выделение ключевых словосочетаний по синтаксическим шаблонам. Алгоритмы RAKE и TextRank.Программные средства для выделения ключевых слов: NLTK, Томита-парсер.
  • Векторная модель
    Векторная модель документа, векторная модель слова. Поиск похожих текстов. Косинусная мера близости. Методы снижения размерности в векторной модели документа: сингулярное разложение, латентный семантический анализ. Связь с моделями скрытых тем. Латентное размещение Дирихле (LDA). Параметры модели. Выбор числа скрытых тем. Расширения модели LDA. Дистрибутивная семантика, векторная модель слова. Построение матрицы PPMI. Поиск близких слов по значению. Снижение размерности и факторизация матрицы PPMI. Эмбеддинги: word2vec, GloVe, AdaGram. Обучение моделей word2vec. Отрицательное сэмплирование.
  • Классификация текстов
    Задачи классификации текстов и предложений по теме, тональности и жанру. Метод наивного Байеса, метод максимальной энтропии. Сверточные нейронные сети. Архитектура FastText.
  • Языковые модели
    Счетные языковые модели. Проблема нулевых вероятностей. Преобразование Лапласа, преобразование Гуд-Тьюринга. Вероятностные нейронные языковые модели. Генерация текстов. Рекуррентные нейронные сети.
  • Классификация последовательностей
    Задача классификации последовательностей. Частеречная разметка, определение семантических ролей, извлечение именованных сущностей. IOB разметка, IOBES разметка. Условные случайные поля.
  • Суммаризация текстов, вопросно-ответные системы
    Абстрактивная и генеративная суммаризация текстов. Алгоритм TextRank. Вопросноответные системы. Архитектура энкодера-декодоры для вопросно-ответных систем и чат-ботов
  • Исправление опечаток
    Модель зашумленного канала. Исправление опечаток по правила. Редакционное растояние.
  • Обработка речи, речевые технологии
    Распознавание речи. Генерация речи.
  • Информационный поиск
    Понятие релевантности. Использование векторной модели в задаче поиска. Косинусная мера релевантности. Использование языковой модели в задаче поиска. Обучение ранжированию. A|B - тестирование.
  • Мультимодальная обработка текстов
    Связь обработки текстов с обработкой изображений. Генерация изображения по тексту. Поиск изображения по описанию.
Элементы контроля

Элементы контроля

  • Домашняя работа (неблокирующий)
  • Самостоятельная работа (неблокирующий)
  • Экзамен (неблокирующий)
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (2 модуль)
    0.49 * Домашняя работа + 0.21 * Самостоятельная работа + 0.3 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Indurkhya N., Damerau F. J. Handbook of natural language processing. – Chapman and Hall/CRC, 2010. – 704 pp.
  • The Handbook of Computational Linguistics and Natural Language Processing [Электронный ресурс] / ed. by Alexander Clark, Chris Fox, Shalom Lappin; DB ebrary. – Chichester: John Wiley & Sons, 2013. – 203 p. – Режим доступа: https://ebookcentral.proquest.com/lib/hselibrary-ebooks/reader.action?docID=4035461&query=computational+linguistics

Рекомендуемая дополнительная литература

  • Perkins, J. Python Text Processing with NLTK 2.0 Cookbook: Use Python NLTK Suite of Libraries to Maximize Your Natural Language Processing Capabilities [Электронный ресурс] / Jacob Perkins; DB ebrary. – Birmingham: Packt Publishing Ltd, 2010. – 336 p.