Компьютерная лингвистика

Бакалавриат 2025/2026

Статус: Курс по выбору (Филология)

Кто читает: Департамент филологии

Где читается: Санкт-Петербургская школа гуманитарных наук и искусств

Когда читается: 4-й курс, 1-3 модуль

Охват аудитории: для своего кампуса

Преподаватели: Фирсанова Виктория Игоревна, Шерстинова Татьяна Юрьевна

Язык: русский

Кредиты: 6

Дополнительные материалы в LMS Задать вопрос

Аннотация

Курс предполагает знакомство студентов с основными направлениями и методами компьютерной лингвистики, формированию у них практических навыков работы с лингвистическими ресурсами и программами компьютерного анализа текстов, построение собственного корпуса текстов или лингвистической базы данных и проведение лингвистического исследования с использованием компьютерных средств. Курс предназначен для студентов-филологов и не требует специальной компьютерной подготовки или навыков программирования. Предлагаемый курс будет полезен не только студентам лингвистического направления, но и студентам-литературоведам, поскольку синтез традиционного и компьютерного подхода в филологических исследованиях является весьма перспективным.

Цель освоения дисциплины

● Получение студентами знания об основных методах и направлениях развития компьютерной лингвистики.
● Приобретение студентами навыков адекватного пользование основными программными продуктами, необходимыми при работе с текстами и корпусами текстов, и навыков создания собственных корпусов текстов для решения локальных научных и академических задач.

Планируемые результаты обучения

Разработан модуль автоматической обработки текстовых данных, который выполняет очистку и лингвистическую разметку (токенизация, лемматизация, удаление стоп-слов, извлечение сущностей) с использованием таких библиотек, как spaCy, NLTK, pymorphy2. Датасет опубликован в открытых репозиториях (Hugging Face Datasets, GitHub). Формат датасета подходит для разработки систем машинного обучения.
Представлен проект реализации векторного представления текста. Реализованы классические методы векторизации текста (BoW, TF-IDF), использованы классические модели построения эмбеддингов (Word2Vec, FastText), использованы инструменты визуализации многомерных пространств (t-SNE, PCA), произведен сравнительный анализ их эффективности на задаче классификации новостных заголовков. Выведены метрики оценки качества классификации, представлена матрица ошибок.
Представлен проект с демонстрацией обучения, тестирования и применения рекуррентных сетей (RNN, LSTM, GRU). Продемонстрирована работа моделей для генерации заголовков, анализа тональности отзывов. Произведен сравнительный анализ их производительности. Выведен результат работы моделей на задачах предсказания последовательностей и классификации текстов. Описана работа по оптимизации гиперпараметров и оценки качества работы моделей с использованием метрик Perplexity, Precision, Recall, F-Score.
Разработан модуль для анализа и реализации механизма внимания и архитектуры Transformer. Модуль включает низкоуровневые функции для работы с матрицами Query, Key, Value. Выведена визуализация работы матриц внимания. Представлен принцип работы многоголового внимания и позиционного кодирования. Реализована модель машинного перевода или суммаризации текстов на основе архитектуры Transformer. Произведена оптимизация гиперпараметров. Представлен отчет о производительности моделей.
Произведена тонкая настройка модели на основе архитектуры BERT (или аналогичной архитектуры) для распознавания именованных сущностей в сфере медицины. Представлена модель для генерации коротких текстов (например, анекдотов), полученная путем тонкой настройки модели GPT-2 (или аналогичной архитектуры). Выполнен отчет, который содержит значения метрик оценки качества работы систем (F1, Precision, Recall и Perplexity), сравнительный анализ моделей и обзор возможностей платформы Hugging Face.
Разработан Telegram-бот для генерации текста на основе дообученной и оптимизированной модели LLaMA или Mistral. Реализована система сбора пользовательской обратной связи. Представлен модуль для автоматической оценки качества генерации текста с помощью фреймворка RAGAS (или аналогичной системы). Продемонстрирована работа методов квантизации для ускорения работы системы. В проекте используется набор промптов для оптимизации работы бота.
Представлен набор промптов, системных ролей для виртуальных ассистентов. Реализован механизм автоматизации генерации контента. Разработаны скрипты для обработки пользовательских и системных промптов. Применены методы A/B тестирования для оценки эффективности систем на основе больших язковых моделей. Реализованы методы feedback loops для оптимизации генерации кода и анализа данных.
Разработан прототип RAG-системы для работы с данными Wikipedia. Использованы векторные базы данных. Применены инструменты такие, как LangChain, LlamaIndex, Weights & Biases для создания эффективных цепочек промптов, оптимизации алгоритмов поиска и извлечения информации из баз данных, контекстных промптов и комплексной оценкой качества на специализированных датасетах.
Представлена оптимизированная и развернутая на мобильном устройстве версия модели LLaMA с применением методов квантизации (QLoRA) и инструментов llama.cpp/ollama. Проведен детальный анализ различных методов сжатия больших языковых моделей. Произведено сравнение производительности моделей до и после оптимизации.
Разработан прототип мультиагентной системы, состоящей из агента-аналитика и агента-суммаризатора. Настроено взаимодействие агентов для решения комплексных задач (например, анализ данных и генерация отчетов). Представлен отчет с оценками эффективности работы системы.
Разработан прототип мультимодальной система для генерации подписей к изображениям и визуального поиска. Представлен проект веб-приложения. Описана интеграция таких нейросетевых моделей, как BLIP или CLIP. Продемонстрирована работа с инструментами для оценки качества генерации описаний и оценки релевантности поиска.
Представлен прототип системы для выбранной темы проекта, например, анализа тональности, генерации текста, извлечения информации и т.д., включающий полный цикл обработки данных, обучение модели, оценку качества и демонстрацию работы на тестовых примерах.
Представлен прототип промышленной RAG-системы, предназначенной для обработки специализированных данных (например, медицинских, юридических или технических документов). Реализован полный цикл работы системы от предобработки и векторного поиска до генерации ответов с помощью продвинутого промпт-инжиниринга. Продемонстрирована работа с инструментами для развертывания, мониторинга и оценки качества работы системы.

Содержание учебной дисциплины

Основы обработки естественного языка. Предобработка текста
Векторизация текста и классические методы машинного обучения
Рекуррентные нейронные сети (RNN, LSTM, GRU)
Механизмы внимания и архитектура Transformer
Трансферное обучение языковых моделей
Большие языковые модели
Промпт-инжиниринг и оптимизация больших языковых моделей
RAG-системы (Retrieval-Augmented Generation)
Оптимизация больших языковых моделей
Мультиагентные системы
Мультимодальные модели
Развёртывание системы обработки естественного языка
Финальный проект. Разработка интеллектуальной RAG-системы

Элементы контроля

Финальный проект
Промежуточный проект
Практикум

Промежуточная аттестация

2025/2026 2nd module
0.2 * Практикум + 0.2 * Практикум + 0.6 * Промежуточный проект
2025/2026 3rd module
0.4 * Практикум + 0.6 * Финальный проект

Авторы

Фирсанова Виктория Игоревна
Афанасьева Анастасия Викторовна
Климов Александр Антонович
Шерстинова Татьяна Юрьевна

Программа дисциплины