• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2019/2020

Анализ неструктурированных данных

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Направление: 01.03.02. Прикладная математика и информатика
Когда читается: 4-й курс, 1, 2 модуль
Формат изучения: без онлайн-курса
Преподаватели: Аксенов Сергей Андреевич, Артемова Екатерина Леонидовна, Гончарова Елизавета Федоровна, Лапидус Анна Александровна, Шеянова Мария Викторовна
Язык: русский
Кредиты: 5

Программа дисциплины

Аннотация

Настоящая учебная дисциплина посвящена вопросам автоматической обработки текстов [natural language processing], области, находящейся на стыке таких дисциплин, как машинное обучение и лингвистика. Курс состоит из двух чатсей: базовой, в ходе которых будут введены основные концепции, и продвинутой, ориентированной на индустриальные технологии и на современные научные вопросы.
Цель освоения дисциплины

Цель освоения дисциплины

  • Изучение базовых задач и методов обработки и анализа текстов
  • Изучение современных нейросетевых моделей для обработки и анализа текстов
  • Освоение программных систем и инструментов для обработки и анализа текстов
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать и применять базовые методы обработки и анализа текстов
  • Уметь решать задачи, связанные с моделированием языка
  • Уметь решать специализированные задачи на текстовых данных
  • Знать этические аспекты обработки текстов
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение. Статистический анализ текстов
    Основные задачи обработки и анализа текстов. Актуальность обработки и анализа текстов. Краткий исторический экскурс по обработке и анализу текстов. Обзор существующих систем обработки и анализа текстов. Классификация систем обработки и анализа текстов. Описательные статистики, оцениваемые по тексту. Методы излечения ключевых слов и словосочетаний. Закон Хипса, Закон Ципфа. Токенизация на основе регулярных выражений. Обучаемая сегментация предложений.
  • Векторные модели представления слов
    Векторная модель документа, векторная модель слова. Поиск похожих текстов. Косинусная мера близости. Методы снижения размерности в век-торной модели документа: сингулярное разложение, латентный семантический анализ. Связь с моделями скрытых тем. Латентное размещение Дири-хле (LDA). Параметры модели. Выбор числа скрытых тем. Расширения модели LDA. Дистрибутивная семантика, векторная модель слова. Построение матрицы PPMI. Поиск близких слов по значению. Снижение размерности и факто-ризация матрицы PPMI. Эмбеддинги: word2vec, GloVe, AdaGram. Обучение моделей word2vec. Отрицательное сэмплирование.
  • Классификация текстов
    Задачи классификации текстов и предложений по теме, тональности и жанру. Метод наивного Байеса, метод максимальной энтропии. Сверточные нейронные сети. Архитектура FastText. Аугментация данных. Классификация при небольших объемах размеченных данных.
  • Классификация последовательностей
    Задача классификации последовательностей. Частеречная разметка, определение семантических ролей, извлечение именованных сущностей. IOB раз-метка, IOBES разметка. Условные случайные поля. Рекуррентные нейронные сети. Модели последовательностей на основе сверточных сетей и трансформеров. Переход от токенизации к BPE кодированию.
  • Предобученные языковые модели
    Предобученные языковые модели на основе рекуррентных нейронных сетей и трансформеров. Архитектуры ELMo, BERT, ULMFit, XLNET, GPT2 и др. GLUE оценка.
  • Синтаксический анализ
    Задача синтаксического разбора предложений. Модель составляющих. Вероятностные контекстно-свободные грамматики. Модель зависимостей. Универсальные зависимости. Корпус. Universal Dependencies. Парсинг зависимостей. Архитектура SyntaxNet и архитектура UDPipe.
  • Машинный перевод
    Статистический машинный перевод. Нейросетевой машинный перевод и модели класса энкодер-декодер. Механизм внимания.
  • Генерация текстов
    Контролируемая генерация тектов. Диалоговые системы общего назначения.
  • Разметка данных, активное обучение.
    Системы разметки данных. Краудсорсинговые платформы. Коэффициенты согласия аннотаторов. Стратегии активного обучения.
  • Вопросное-ответные системы
    Типология вопросно-ответных системы. Архитектуры BiDAF, QANet, DRQ&A. Машинное чтение. Задача SQUAD.
  • Мультимодальные методы
    Задачи, связывающие анализ изображений и анализ текстов. Распознование текстов [optical character recognition].
  • Мультиязычные методы
    Перенос обучения между различными предметными областями. Перенос обучения с одного языка на другой.
  • Обработка текстов в медицине
    Анонимизация и подготовка медицинских текстов к анализу. Обзор задач, возникабщих при анализе медицинских текстов. Источники данных, онтологии, таксономии и графы знаний в медицине.
  • Информационный поиск
    Современный поисковые системы: индексация, поиск по векторному представлению. Связь с вопросно-ответными системами и рекомендательными системами.
  • Этические вопросы в обработке текстов
    Предвзятость в предобученных моделях и способы ее компенсации. Детектирование ложных нвоостей и пропаганды.
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание (ДЗ1)
  • неблокирующий Домашнее задание (ДЗ2)
  • неблокирующий Домашнее задание (ДЗ 3)
  • неблокирующий Домашнее задание (ДЗ4)
  • неблокирующий Компьютерный тест (Квизы)
    Квизы по итогам каждой лекции
  • неблокирующий Проект 1 (Домашнее задание)
    Проект на основе SemEval
  • неблокирующий Проект 2 (Домашнее задание)
    Проект на основе SemEval
  • неблокирующий Устный экзамен
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (2 модуль)
    0.075 * Домашнее задание (ДЗ 3) + 0.075 * Домашнее задание (ДЗ1) + 0.075 * Домашнее задание (ДЗ2) + 0.075 * Домашнее задание (ДЗ4) + 0.12 * Компьютерный тест (Квизы) + 0.09 * Проект 1 (Домашнее задание) + 0.09 * Проект 2 (Домашнее задание) + 0.4 * Устный экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Manning, C. D., & Schèutze, H. (1999). Foundations of Statistical Natural Language Processing. Cambridge, Mass: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=24399

Рекомендуемая дополнительная литература

  • Shay Cohen. (2019). Bayesian Analysis in Natural Language Processing : Second Edition. San Rafael: Morgan & Claypool Publishers. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2102157