2025/2026




Глубинное обучение для анализа и генерации текстов
Статус:
Маго-лего
Где читается:
Факультет компьютерных наук
Когда читается:
2, 3 модуль
Охват аудитории:
для своего кампуса
Язык:
русский
Кредиты:
6
Контактные часы:
68
Программа дисциплины
Аннотация
Настоящая учебная дисциплина посвящена вопросам автоматической обработки текстов [natural language processing], области, находящейся на стыке таких дисциплин, как машинное обучение и лингвистика. Курс состоит из двух частей: базовой, в ходе которых будут введены основные концепции, и продвинутой, ориентированной на индустриальные технологии и на современные научные вопросы.
Цель освоения дисциплины
- Овладеть знаниями и навыками использования методов обработки естественного языка (NLP) для повышения эффективности маркетинговых стратегий, автоматизации анализа текста, создания сегментов и персонализированного контента, а также внедрения современных технологий машинного обучения и глубокого обучения в маркетинг и продуктовую разработку.
Планируемые результаты обучения
- объяснить ключевые концепции и технологии NLP, включая токенизацию, эмбеддинги и классификацию текстов;
- применять методы Named Entity Recognition (NER) для автоматического извлечения сущностей из текстов и анализа клиентских данных;
- реализовать классификацию и тематическое моделирование текстов для анализа обращения клиентов и выявления трендов;
- понимать архитектуры Seq2Seq, от RNN к Transformer, и их применение в машинном переводе и локализации контента;
- использовать модели BERT и GPT для решения задач поиска, генерации текстов и дообучения в маркетинговых сценариях;
- оценивать метрики качества NLP-моделей и их влияние на бизнес-решения;
- строить стратегии автоматизации маркетинга с использованием генеративных языковых моделей, включая создание персонализированных рассылок и контента;
- разрабатывать дорожные карты внедрения NLP и GAI-технологий с учетом организационных и этических факторов.
Содержание учебной дисциплины
- Что умеет NLP и зачем он маркетологу
- Классификация текстов. Метрики, архитектуры
- Тематическое моделирование
- Архитектуры Seq2Seq: от RNN к Transforme
- Основы обучения нейронных сетей
- BERT и его применение в NLP
- GPT и autoregressive модели
Промежуточная аттестация
- 2025/2026 3rd moduleИтог = Округление(0.7 * ДЗ + 0.3 * Э), где ДЗ — средняя оценка за все домашние задания, Э — оценка за экзамен. ср. ДЗ рассчитывается без округления; итоговая оценка округляется арифметически (0.5 вверх). Для того, чтобы получить оценку «отлично» вам нужно набрать 8 – 10 баллов, «хорошо» 6 – 8 баллов, «удовлетворительно» 4-6 баллов.
Список литературы
Рекомендуемая основная литература
- Speech and language processing, Jurafsky, D., 2014
- Yang Liu, & Meng Zhang. (2018). Neural Network Methods for Natural Language Processing. Computational Linguistics, (1), 193. https://doi.org/10.1162/COLI_r_00312
- Глубокое обучение, Гудфеллоу, Я., 2018
Рекомендуемая дополнительная литература
- Deep learning, Goodfellow, I., 2016