• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Анализ текстов. Генеративные модели

2019/2020
Учебный год
RUS
Обучение ведется на русском языке
5
Кредиты
Статус:
Курс обязательный
Когда читается:
2-й курс, 1, 2 модуль

Преподаватели


Артемова Екатерина Леонидовна


Саркисян Вероника Вагановна

Программа дисциплины

Аннотация

Данная дисциплина ставит своей целью изучение основных задач и методов обработки и анализа текстов, а также освоение программных систем и инструментов, в которых реализованы данные методы. Эти базовые знания и навыки необходимы в профессиональной деятельности специалистов по анализу данных и машинного обучения.
Цель освоения дисциплины

Цель освоения дисциплины

  • Изучение основных задач и методов обработки и анализа текстов
Планируемые результаты обучения

Планируемые результаты обучения

  • Знание методов обработки и анализа текстов
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение
    Основные задачи обработки и анализа текстов. Актуальность обработки и анализа текстов. Краткий исторический экскурс по обработке и анализу текстов. Обзор существующих систем обработки и анализа текстов. Классификация систем обработки и анализа текстов.
  • Методы сбора и хранения данных
    Форматы данных, способы хранения, принципы работы интернета. Краулинг. Regexp. Unicode.
  • Частотный анализ текстов
    Модель мешка слов. Закон Ципфа. Закон Хипса. Векторное представление текстов. Релевантность в векторной модели. Расширения модели мешка слов. Реализация модели мешка слов в библиотеках Gensim и NLTK.
  • Морфологический анализ и разрешение неоднозначности
    Задача морфологического анализа. Типы языков. Алгоритмы морфологического разбора. Морфологическая разметка. Омонимия и неоднозначность. Алгоритм разрешения омонимии. Скрытые Марковские модели. Декодирование в скрытых Марковских моделях.
  • Синтаксический анализ. Универсальные зависимости
    Задача синтаксического разбора предложений. Модель составляющих. Вероятностные контекстно-свободные грамматики. Модель зависимостей. Универсальные зависимости. Парсинг зависимостей. Архитектура SyntaxNet
  • Выделение ключевых слов и словосочетаний
    Лексический анализ. Словари и тезаурусы. Поиск синонимов. Частотные методы выделения ключевых слов и словосочетаний. Метрики совместной встречаемости. Выделение ключевых словосочетаний по морфологическим шаблонам. Выделение ключевых словосочетаний по синтаксическим шаблонам. Алгоритмы RAKE и TextRank.Программные средства для выделения ключевых слов: NLTK, Томита-парсер.
  • Векторная модель
    Векторная модель документа, векторная модель слова. Поиск похожих текстов. Косинусная мера близости. Методы снижения размерности в векторной модели документа: сингулярное разложение, латентный семантический анализ. Связь с моделями скрытых тем. Латентное размещение Дирихле (LDA). Параметры модели. Выбор числа скрытых тем. Расширения модели LDA. Дистрибутивная семантика, векторная модель слова. Построение матрицы PPMI. Поиск близких слов по значению. Снижение размерности и факторизация матрицы PPMI. Эмбеддинги: word2vec, GloVe, AdaGram. Обучение моделей word2vec. Отрицательное сэмплирование.
  • Классификация текстов
    Задачи классификации текстов и предложений по теме, тональности и жанру. Метод наивного Байеса, метод максимальной энтропии. Сверточные нейронные сети. Архитектура FastText.
  • Языковые модели
    Счетные языковые модели. Проблема нулевых вероятностей. Преобразование Лапласа, преобразование Гуд-Тьюринга. Вероятностные нейронные языковые модели. Генерация текстов. Рекуррентные нейронные сети.
  • Классификация последовательностей
    Задача классификации последовательностей. Частеречная разметка, определение семантических ролей, извлечение именованных сущностей. IOB разметка, IOBES разметка. Условные случайные поля.
  • Суммаризация текстов, вопросно-ответные системы
    Абстрактивная и генеративная суммаризация текстов. Алгоритм TextRank. Вопросноответные системы. Архитектура энкодера-декодоры для вопросно-ответных систем и чат-ботов
  • Исправление опечаток
    Модель зашумленного канала. Исправление опечаток по правила. Редакционное растояние.
  • Обработка речи, речевые технологии
    Распознавание речи. Генерация речи.
  • Информационный поиск
    Понятие релевантности. Использование векторной модели в задаче поиска. Косинусная мера релевантности. Использование языковой модели в задаче поиска. Обучение ранжированию. A|B - тестирование.
  • Мультимодальная обработка текстов
    Связь обработки текстов с обработкой изображений. Генерация изображения по тексту. Поиск изображения по описанию.
Элементы контроля

Элементы контроля

  • неблокирующий Домашняя работа
  • неблокирующий Самостоятельная работа
  • неблокирующий Экзамен
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (2 модуль)
    0.49 * Домашняя работа + 0.21 * Самостоятельная работа + 0.3 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Indurkhya N., Damerau F. J. Handbook of natural language processing. – Chapman and Hall/CRC, 2010. – 704 pp.
  • The Handbook of Computational Linguistics and Natural Language Processing [Электронный ресурс] / ed. by Alexander Clark, Chris Fox, Shalom Lappin; DB ebrary. – Chichester: John Wiley & Sons, 2013. – 203 p. – Режим доступа: https://ebookcentral.proquest.com/lib/hselibrary-ebooks/reader.action?docID=4035461&query=computational+linguistics

Рекомендуемая дополнительная литература

  • Perkins, J. Python Text Processing with NLTK 2.0 Cookbook: Use Python NLTK Suite of Libraries to Maximize Your Natural Language Processing Capabilities [Электронный ресурс] / Jacob Perkins; DB ebrary. – Birmingham: Packt Publishing Ltd, 2010. – 336 p.