• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Text Analysis. Generative Models

2025/2026
Academic Year
RUS
Instruction in Russian
6
ECTS credits
Delivered at:
Joint Department with Sberbank ‘Financial Technologies and Data Analysis’
Course type:
Compulsory course
When:
2 year, 1, 2 module

Instructor


Малов Эдуард Эдуардович

Программа дисциплины

Аннотация

Дисциплина формирует у студентов комплексные знания и практические навыки в области обработки естественного языка (NLP) на стыке современных методов машинного обучения, статистики и глубокого обучения. Курс охватывает спектр технологий — от классических алгоритмов анализа текста до передовых подходов, включая работу с большими языковыми моделями (LLM) и мульти-агентными системами. Программа нацелена на решение прикладных задач: разработку интеллектуальных сервисов, а также освоение инструментов для сбора, хранения, поиска и анализа текстовой информации для эффективного применения в IT и смежных областях.
Цель освоения дисциплины

Цель освоения дисциплины

  • Изучение методов классического и нейросетевого NLP, формирование навыков работы с большими языковыми моделями (LLM), решение задач поиска, извлечения, понимания и генерации текстовой информации, создание и использование инструментов и платформ для анализа текстов.
Планируемые результаты обучения

Планируемые результаты обучения

  • Знание основных понятий, этапов и задач анализа текстов на естественном языке
  • Умение применять формальные, статистические и нейросетевые методы анализа текста
  • Понимание архитектуры современных больших языковых моделей
  • Умение разрабатывать и обучать системы классификации, тематического моделирования, Q&A и информационного поиска
  • Умение проектировать, реализовывать и оценивать интеллектуальные чат-боты и мультиагентные системы на базе LLM
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в обработку естественного языка и задачи анализа текста
  • Методы сбора и хранения данных
  • Частотный анализ текстов
  • Морфологический, синтаксический и лексический анализ
  • Векторная модель
  • Классификация текстов
  • Языковое моделирование
  • Трансформеры. Большие языковые модели
  • Информационный поиск. Вопросно-ответные системы
  • Промпт-инжиниринг
  • Агентные и мультиагентные системы
Элементы контроля

Элементы контроля

  • неблокирующий Групповой проект №1
    Разработка сервиса по детекции юридических ссылок
  • неблокирующий Групповой проект №2
    Разработка телеграмм-бота, агрегирующего новостную ленту по заданным тематикам и ключевым словам
  • неблокирующий Групповой проект №3
    Разработка QA LLM-агента
  • неблокирующий Экзамен
    Устный экзамен в форме ответа на вопросы из билетов. Для подготовки к ответу студенту дается не более 15 минут
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 2nd module
    0.2 * Групповой проект №1 + 0.25 * Групповой проект №2 + 0.25 * Групповой проект №3 + 0.3 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Speech and language processing, Jurafsky, D., 2014

Рекомендуемая дополнительная литература

  • Yang Liu, & Meng Zhang. (2018). Neural Network Methods for Natural Language Processing. Computational Linguistics, (1), 193. https://doi.org/10.1162/COLI_r_00312

Авторы

  • Минец Максим Вячеславович
  • Яковлева Илона Александровна