• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2019/2020

Автоматическая обработка текста

Статус: Курс по выбору (Науки о данных)
Направление: 01.04.02. Прикладная математика и информатика
Когда читается: 2-й курс, 1, 2 модуль
Формат изучения: без онлайн-курса
Прогр. обучения: Науки о данных
Язык: русский
Кредиты: 8

Программа дисциплины

Аннотация

Цель курса - ознакомление студентов с задачами и современными технологиями Natural Language Processing. Планируется ознакомление со статистическими и нейросетевыми подходами в NLP, приобретение навыков их использования в реальных практических задачах, в частности, с помощью библиотеки tensorflow. Особое внимание будет уделено приложениям к задаче машинного перевода
Цель освоения дисциплины

Цель освоения дисциплины

  • Ознакомление студентов с задачами и современными технологиями Natural Language Processing
Планируемые результаты обучения

Планируемые результаты обучения

  • Иметь представление об основных задачах, решаемых с помощью автоматической обработки текстов
  • Уметь выбирать предобученные вложения слов из популярных библиотек, таких как word2vec, gensim
  • Уметь выбирать и обучать модели классификации текстов на естественном языке
  • Обучать глубинные модели с использованием одного из современных нейросетевых фрейморков
  • Знать методы построения языковых моделей, как статистических, так и нейросетевых;
  • Строить глубинные seq2seq модели
  • Работать в парадигме структурированного обучения при анализе и предсказании последовательностей
  • Использовать механизм внимания
  • Уметь использовать ЕМ-алгоритм для построения моделей с латентными переменными
  • Уметь решать задачу выравнивания слов
  • Уметь использовать методы переноса обучения, в том числе для решения задач NLP
  • Иметь представление о задаче машинного перевода и о современных методах, используемых в ней
  • Уметь использовать методы доменной адаптации, в том числе для решения задач NLP
  • Иметь представление о разновидностях диалоговых систем
  • Уметь обучить простую диалоговую систему
  • Иметь представление о важнейших разновидностях генеративных моделей
  • Уметь обучать простейшие генеративные модели, в том числе для решения задач NLP
  • Иметь представление о подходах к суммаризации текстов и об используемых в этой задаче методах
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение
    Задачи NLP. Современное состояние науки.
  • Word Embeddings
    Distributional semantics, LSA, Word2Vec, GloVe. Why and when we need them, where they’re in a NN; some other directions like char-based (Mimic, FastText, ...), setence-level (Skip-Thought), some notes about geometry of embedding spaces. slides video
  • Классификация текстов
    Generative vs. discriminative models for classification. Classical approaches for text representation: BOW, TF-IDF. Neural approaches: NBOW, convolutional architectures, recurrent architectures, hybrid architectures.
  • Языковые модели
    N-gram Language Models, smoothing (backoff, add-one, Kneser-Ney). Neural Language Models (FFNLM, RNN-LM, bi-RNN-LM, CNN-LM). Visualizing and understanding trained models (RNN, CNN). Using LMs to get embeddings (Skip-Thought, ELMO
  • Модели seq2seq
    Seq2seq/Attention. Seq2seq: encoder-decoder framework. Attention: Bahdanau model. Self-attention, Transformer. Pointer networks. Attention for analysis. Different usages of attention. slides
  • Структурированное обучение
    Structured Learning. Structured perceptron, structured prediction, dynamic oracles, basic concepts from RL.
  • EM-алгоритм и выравнивание слов
    Expectation-Maximization and Word Alignment Models (David Talbot): Generative models, MLE, EM for incomplete data, IBM word alignment models.
  • Машинный перевод
    Machine Translation: a review of the key ideas from PBMT, the application specific ideas that have developed in NMT over the past 3 years and some of the open problems in this area.
  • Перенос обучения
    Transfer learning and Multi-task learning in NLP. What and why does a network learn: "model" is never just "model"! Transfer learning in NLP. Multi-task learning in NLP. How to understand, what kind of information the model representations contain.
  • Адаптация домена
    Domain adaptation for NLP. General theory. Instance weighting. Proxy-labels methods. Feature matching methods. Distillation-like methods.
  • Генеративные модели
    Adversarial methods, Variational Autoencoders and how to (not) use them for NLP.
  • Диалоговые системы
    Task-oriented vs general conversation systems. Overview of a framework for task-oriented systems. General conversation: retrieval and generative approaches. Generative models for general conversation. Retrieval-based models for general conversation.
  • Суммаризация текстов
    Text summarization methods. Extractive vs abstractive. A piece of extractive text summarization. Abstractive text summarization.
Элементы контроля

Элементы контроля

  • неблокирующий Домашняя работа 1
  • неблокирующий Домашняя работа 2
  • неблокирующий Экзамен
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (2 модуль)
    0.3 * Домашняя работа 1 + 0.3 * Домашняя работа 2 + 0.4 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Асадуллаев, Р. Г. (2017). Нечеткая логика и нейронные сети. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.93A4EE7B
  • Геворкян Гурген Аркадиевич. (2017). Нейронные сети: графический интерфейс пользователя в Matlab. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.4576DF4C
  • Нейронные сети,генетические алгоритмы и нечеткие системы, Рутковская Д., Пилиньский М., 2008

Рекомендуемая дополнительная литература

  • Zhuravel, A., & Velmagina, N. (2018). Artificial Neural Networks For Building Projects Cost Estimating ; Искусственные нейронные сети в оценке стоимости строительных проектов ; Штучні нейронні мережі в оцінці вартості будівельних проектів. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.6CA2964D
  • АВЕРКИН АЛЕКСЕЙ НИКОЛАЕВИЧ. (2016). Гибридные Модулярные Нейронные Сети. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.3D0005DF
  • Нейронные сети : полный курс, Хайкин С., Куссуль Н. Н., 2006