• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2025/2026

Основы NLP

Статус: Маго-лего
Когда читается: 2 модуль
Охват аудитории: для своего кампуса
Язык: русский
Кредиты: 3
Контактные часы: 28

Программа дисциплины

Аннотация

Дисциплина посвящена основам обработки естественного языка (NLP) и современным методам анализа текстовых данных. Курс охватывает полный цикл работы с текстом: от предобработки, токенизации и статистического анализа до построения моделей векторных представлений и тематического моделирования. Курс исследует как классические алгоритмы машинного обучения для классификации, так и нейросетевые подходы. Отдельное внимание уделяется задачам последовательной разметки, языковому моделированию и современным архитектурам, включая Seq2Seq и трансформеры (BERT). Отдельное внимание на курсе уделяется работе с библиотекой Hugging Face: будет запуск, поиск и тонкая настройка моделей. Как результат, студент получит возможность научиться собирать полноценный NLP-пайплайн - от обработки данных до оценки метрик качества.
Цель освоения дисциплины

Цель освоения дисциплины

  • Сформировать у студентов системное представление об основных задачах, методах и архитектурах в области обработки естественного языка.
  • Дать глубокое понимание принципов работы с текстовыми данными, от фундаментальных статистических концепций до современных предобученных моделей.
  • Студенты научатся применять, обучать и критически оценивать state-of-the-art модели для решения практических задач анализа текста.
Планируемые результаты обучения

Планируемые результаты обучения

  • Объяснять специфику текстовых данных и применять полный пайплайн их предобработки (токенизация, лемматизация, удаление стоп-слов).
  • Различать и выбирать подходящие методы векторизации текста: Bag-of-Words, TF-IDF, а также плотные эмбеддинги (Word2Vec, GloVe).
  • Анализировать и применять методы unsupervised анализа, включая тематическое моделирование (LDA) для выявления скрытых тем в корпусах текстов.
  • Применять классические алгоритмы (Наивный Байес, Логистическая регрессия) и нейросетевые архитектуры (CNN, RNN/LSTM) для решения задач классификации текста.
  • Описывать и решать задачи последовательной разметки (POS-теггинг, NER), используя статистические (HMM, CRF) и нейросетевые подходы.
  • Понимать принципы языкового моделирования, строить n-граммные модели, оценивать их качество (перплексия) и использовать их для генерации текста.
  • Объяснять архитектуру Encoder-Decoder (Seq2Seq) и ее ограничения.
  • Понимать концепцию “transfer learning” в NLP и применять предобученные языковые модели (например, BERT) для решения целевых задач (fine-tuning).
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в NLP и предобработка текста
  • Векторные представления слов и тематическое моделирование
  • Классификация текста
  • Последовательная разметка текста
  • Языковое моделирование и генерация текста
  • Seq2Seq-модели и механизм внимания
  • Передача знаний и предобученные языковые модели
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание 1.
    Предобработка текста, векторные представления слов, тематическое моделирование. Очистка и токенизация корпуса, сравнение классических и обучаемых эмбеддингов, применение LDA с целью интерпретации.
  • неблокирующий Домашнее задание 2.
    Классификация текста и последовательная разметка. Соревнование на Kaggle с моделями BERT-типов: fine-tuning предобученной модели под задачу курса.
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 2nd module
    0.4 * Домашнее задание 1. + 0.6 * Домашнее задание 2.
Список литературы

Список литературы

Рекомендуемая основная литература

  • Uday Kamath, John Liu, & James Whitaker. (2019). Deep Learning for NLP and Speech Recognition. Springer.

Рекомендуемая дополнительная литература

  • Руководство по NLP, Найт, С., 2001

Авторы

  • Бурлова Альбина Сергеевна
  • Ахмедова Гюнай Интигам кызы