Бакалавриат
2025/2026


Компьютерная лингвистика
Статус:
Курс по выбору (Филология)
Кто читает:
Департамент филологии
Где читается:
Санкт-Петербургская школа гуманитарных наук и искусств
Когда читается:
4-й курс, 1-3 модуль
Охват аудитории:
для своего кампуса
Язык:
русский
Кредиты:
6
Программа дисциплины
Аннотация
Курс предполагает знакомство студентов с основными направлениями и методами компьютерной лингвистики, формированию у них практических навыков работы с лингвистическими ресурсами и программами компьютерного анализа текстов, построение собственного корпуса текстов или лингвистической базы данных и проведение лингвистического исследования с использованием компьютерных средств. Курс предназначен для студентов-филологов и не требует специальной компьютерной подготовки или навыков программирования. Предлагаемый курс будет полезен не только студентам лингвистического направления, но и студентам-литературоведам, поскольку синтез традиционного и компьютерного подхода в филологических исследованиях является весьма перспективным.
Цель освоения дисциплины
- ● Получение студентами знания об основных методах и направлениях развития компьютерной лингвистики.
- ● Приобретение студентами навыков адекватного пользование основными программными продуктами, необходимыми при работе с текстами и корпусами текстов, и навыков создания собственных корпусов текстов для решения локальных научных и академических задач.
Планируемые результаты обучения
- Разработан модуль автоматической обработки текстовых данных, который выполняет очистку и лингвистическую разметку (токенизация, лемматизация, удаление стоп-слов, извлечение сущностей) с использованием таких библиотек, как spaCy, NLTK, pymorphy2. Датасет опубликован в открытых репозиториях (Hugging Face Datasets, GitHub). Формат датасета подходит для разработки систем машинного обучения.
- Представлен проект реализации векторного представления текста. Реализованы классические методы векторизации текста (BoW, TF-IDF), использованы классические модели построения эмбеддингов (Word2Vec, FastText), использованы инструменты визуализации многомерных пространств (t-SNE, PCA), произведен сравнительный анализ их эффективности на задаче классификации новостных заголовков. Выведены метрики оценки качества классификации, представлена матрица ошибок.
- Представлен проект с демонстрацией обучения, тестирования и применения рекуррентных сетей (RNN, LSTM, GRU). Продемонстрирована работа моделей для генерации заголовков, анализа тональности отзывов. Произведен сравнительный анализ их производительности. Выведен результат работы моделей на задачах предсказания последовательностей и классификации текстов. Описана работа по оптимизации гиперпараметров и оценки качества работы моделей с использованием метрик Perplexity, Precision, Recall, F-Score.
- Разработан модуль для анализа и реализации механизма внимания и архитектуры Transformer. Модуль включает низкоуровневые функции для работы с матрицами Query, Key, Value. Выведена визуализация работы матриц внимания. Представлен принцип работы многоголового внимания и позиционного кодирования. Реализована модель машинного перевода или суммаризации текстов на основе архитектуры Transformer. Произведена оптимизация гиперпараметров. Представлен отчет о производительности моделей.
- Произведена тонкая настройка модели на основе архитектуры BERT (или аналогичной архитектуры) для распознавания именованных сущностей в сфере медицины. Представлена модель для генерации коротких текстов (например, анекдотов), полученная путем тонкой настройки модели GPT-2 (или аналогичной архитектуры). Выполнен отчет, который содержит значения метрик оценки качества работы систем (F1, Precision, Recall и Perplexity), сравнительный анализ моделей и обзор возможностей платформы Hugging Face.
- Разработан Telegram-бот для генерации текста на основе дообученной и оптимизированной модели LLaMA или Mistral. Реализована система сбора пользовательской обратной связи. Представлен модуль для автоматической оценки качества генерации текста с помощью фреймворка RAGAS (или аналогичной системы). Продемонстрирована работа методов квантизации для ускорения работы системы. В проекте используется набор промптов для оптимизации работы бота.
- Представлен набор промптов, системных ролей для виртуальных ассистентов. Реализован механизм автоматизации генерации контента. Разработаны скрипты для обработки пользовательских и системных промптов. Применены методы A/B тестирования для оценки эффективности систем на основе больших язковых моделей. Реализованы методы feedback loops для оптимизации генерации кода и анализа данных.
- Разработан прототип RAG-системы для работы с данными Wikipedia. Использованы векторные базы данных. Применены инструменты такие, как LangChain, LlamaIndex, Weights & Biases для создания эффективных цепочек промптов, оптимизации алгоритмов поиска и извлечения информации из баз данных, контекстных промптов и комплексной оценкой качества на специализированных датасетах.
- Представлена оптимизированная и развернутая на мобильном устройстве версия модели LLaMA с применением методов квантизации (QLoRA) и инструментов llama.cpp/ollama. Проведен детальный анализ различных методов сжатия больших языковых моделей. Произведено сравнение производительности моделей до и после оптимизации.
- Разработан прототип мультиагентной системы, состоящей из агента-аналитика и агента-суммаризатора. Настроено взаимодействие агентов для решения комплексных задач (например, анализ данных и генерация отчетов). Представлен отчет с оценками эффективности работы системы.
- Разработан прототип мультимодальной система для генерации подписей к изображениям и визуального поиска. Представлен проект веб-приложения. Описана интеграция таких нейросетевых моделей, как BLIP или CLIP. Продемонстрирована работа с инструментами для оценки качества генерации описаний и оценки релевантности поиска.
- Представлен прототип системы для выбранной темы проекта, например, анализа тональности, генерации текста, извлечения информации и т.д., включающий полный цикл обработки данных, обучение модели, оценку качества и демонстрацию работы на тестовых примерах.
- Представлен прототип промышленной RAG-системы, предназначенной для обработки специализированных данных (например, медицинских, юридических или технических документов). Реализован полный цикл работы системы от предобработки и векторного поиска до генерации ответов с помощью продвинутого промпт-инжиниринга. Продемонстрирована работа с инструментами для развертывания, мониторинга и оценки качества работы системы.
Содержание учебной дисциплины
- Основы обработки естественного языка. Предобработка текста
- Векторизация текста и классические методы машинного обучения
- Рекуррентные нейронные сети (RNN, LSTM, GRU)
- Механизмы внимания и архитектура Transformer
- Трансферное обучение языковых моделей
- Большие языковые модели
- Промпт-инжиниринг и оптимизация больших языковых моделей
- RAG-системы (Retrieval-Augmented Generation)
- Оптимизация больших языковых моделей
- Мультиагентные системы
- Мультимодальные модели
- Развёртывание системы обработки естественного языка
- Финальный проект. Разработка интеллектуальной RAG-системы