Бакалавриат
2025/2026




Анализ NLP методами искусственного интеллекта
Статус:
Курс обязательный (Международный бакалавриат по бизнесу и экономике)
Кто читает:
Департамент экономики и финансов
Где читается:
Факультет социально-экономических и компьютерных наук
Когда читается:
4-й курс, 1 модуль
Охват аудитории:
для своего кампуса
Язык:
русский
Кредиты:
5
Контактные часы:
32
Программа дисциплины
Аннотация
Курс «Анализ NLP методами искусственного интеллекта» представляет собой практико-ориентированную программу, сфокусированную на решении прикладных задач обработки естественного языка (NLP) с использованием передовых AI-технологий. Ключевая особенность курса — подход «AI-first», при котором большие языковые модели (LLM) выступают не как объект изучения, а как основной рабочий инструмент для генерации кода, анализа данных и создания интеллектуальных систем.
Дисциплина ориентирована на формирование у студентов компетенций, востребованных в сферах digital-маркетинга, бизнес-аналитики и продуктового менеджмента, где требуется быстро извлекать ценные инсайты из больших объемов текстовой информации.
Цель освоения дисциплины
- Сформировать у студентов методологию «AI-first»
- Научить студентов решать полный спектр прикладных NLP-задач
- Обеспечить понимание фундаментальных принципов семантического анализа текста
- Развить навыки проектирования и создания конечных data-продуктов
Планируемые результаты обучения
- Умение формулировать промпты для LLM с целью генерации кода для автоматического сбора данных из веб-источников (парсинг) и через API
- Владение методами очистки и структурирования «сырых» текстовых данных для подготовки унифицированных датасетов
- Способность решать задачи классификации текстов и анализа тональности, используя как готовые специализированные библиотеки, так и прямые запросы к LLM для оценки текстов по заданным категориям.
- Умение применять методы извлечения именованных сущностей (NER) и тематического моделирования для выявления ключевых объектов, персон и скрытых тем в больших массивах текстовых данных.
- Владение навыками преобразования текстовых данных в векторные представления (эмбеддинги) с помощью современных трансформерных моделей для последующего математического анализа.
- Умение применять векторные операции для решения прикладных задач, таких как семантический поиск по смыслу, кластеризация текстов и обнаружение дубликатов.
- Понимание архитектуры и принципов работы вопросно-ответных систем, построенных по технологии Retrieval-Augmented Generation (RAG).
- Способность проектировать и программно реализовывать end-to-end NLP-системы, объединяющие семантический поиск по базе знаний с генеративными возможностями LLM для создания ответа.
- Владение навыком интеграции различных NLP-компонентов (парсер, анализатор, векторизатор, LLM) в единый работающий data-продукт.
Содержание учебной дисциплины
- Раздел 1. Парсинг и обработка текстовых данных
- Раздел 2. Извлечение смысла
- Раздел 3. Математика языка и семантический поиск
- Раздел 4. Создание интеллектуальных ассистентов (RAG)
Промежуточная аттестация
- 2025/2026 1st module0.15 * Анализ датасета + 0.4 * Итоговый проект + 0.3 * Семинарская работа + 0.15 * Составление датасета
Список литературы
Рекомендуемая основная литература
- Python для data science, Васильев, Ю., 2023
- Seppe vanden Broucke, & Bart Baesens. (2018). Practical Web Scraping for Data Science : Best Practices and Examples with Python. Apress.
- Обработка естественного языка Python и spaCy на практике, Васильев, Ю., 2021
Рекомендуемая дополнительная литература
- Introducing semantics, Riemer, N., 2010