2025/2026



Основы NLP
Статус:
Маго-лего
Где читается:
Факультет компьютерных наук
Когда читается:
2 модуль
Охват аудитории:
для своего кампуса
Преподаватели:
Бурлова Альбина Сергеевна
Язык:
русский
Кредиты:
3
Контактные часы:
28
Программа дисциплины
Аннотация
Дисциплина посвящена основам обработки естественного языка (NLP) и современным методам анализа текстовых данных. Курс охватывает полный цикл работы с текстом: от предобработки, токенизации и статистического анализа до построения моделей векторных представлений и тематического моделирования.
Курс исследует как классические алгоритмы машинного обучения для классификации, так и нейросетевые подходы. Отдельное внимание уделяется задачам последовательной разметки, языковому моделированию и современным архитектурам, включая Seq2Seq и трансформеры (BERT).
Отдельное внимание на курсе уделяется работе с библиотекой Hugging Face: будет запуск, поиск и тонкая настройка моделей. Как результат, студент получит возможность научиться собирать полноценный NLP-пайплайн - от обработки данных до оценки метрик качества.
Цель освоения дисциплины
- Сформировать у студентов системное представление об основных задачах, методах и архитектурах в области обработки естественного языка.
- Дать глубокое понимание принципов работы с текстовыми данными, от фундаментальных статистических концепций до современных предобученных моделей.
- Студенты научатся применять, обучать и критически оценивать state-of-the-art модели для решения практических задач анализа текста.
Планируемые результаты обучения
- Объяснять специфику текстовых данных и применять полный пайплайн их предобработки (токенизация, лемматизация, удаление стоп-слов).
- Различать и выбирать подходящие методы векторизации текста: Bag-of-Words, TF-IDF, а также плотные эмбеддинги (Word2Vec, GloVe).
- Анализировать и применять методы unsupervised анализа, включая тематическое моделирование (LDA) для выявления скрытых тем в корпусах текстов.
- Применять классические алгоритмы (Наивный Байес, Логистическая регрессия) и нейросетевые архитектуры (CNN, RNN/LSTM) для решения задач классификации текста.
- Описывать и решать задачи последовательной разметки (POS-теггинг, NER), используя статистические (HMM, CRF) и нейросетевые подходы.
- Понимать принципы языкового моделирования, строить n-граммные модели, оценивать их качество (перплексия) и использовать их для генерации текста.
- Объяснять архитектуру Encoder-Decoder (Seq2Seq) и ее ограничения.
- Понимать концепцию “transfer learning” в NLP и применять предобученные языковые модели (например, BERT) для решения целевых задач (fine-tuning).
Содержание учебной дисциплины
- Введение в NLP и предобработка текста
- Векторные представления слов и тематическое моделирование
- Классификация текста
- Последовательная разметка текста
- Языковое моделирование и генерация текста
- Seq2Seq-модели и механизм внимания
- Передача знаний и предобученные языковые модели
Элементы контроля
- Домашнее задание 1.Предобработка текста, векторные представления слов, тематическое моделирование. Очистка и токенизация корпуса, сравнение классических и обучаемых эмбеддингов, применение LDA с целью интерпретации.
- Домашнее задание 2.Классификация текста и последовательная разметка. Соревнование на Kaggle с моделями BERT-типов: fine-tuning предобученной модели под задачу курса.