• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Мультимодальные нейронные сети

2025/2026
Учебный год
RUS
Обучение ведется на русском языке
3
Кредиты
Статус:
Курс по выбору
Когда читается:
2-й курс, 2 модуль

Преподаватели


Жестков Борис Григорьевич

Программа дисциплины

Аннотация

Дисциплина посвящена современным архитектурам мультимодальных нейросетей и генеративных моделей. Курс охватывает модели, работающие с изображениями, аудио, видео и текстом, исследует методы контрастивного обучения, архитектуры типа CLIP, BLIP, VQGAN, DALL-E, а также механизмы генерации и токенизации мультимодальных данных. Лекции сопровождаются разбором практических задач и исследований, а также домашними заданиями по обучению адаптеров и генерации описаний по мультимодальному входу.
Цель освоения дисциплины

Цель освоения дисциплины

  • Познакомить студентов с архитектурами современных мультимодальных генеративных моделей.
  • Научить использовать предобученные энкодеры и обучать адаптеры для мультимодальных задач.
  • Развить понимание особенностей работы с изображениями, аудио и видео в генеративных моделях.
  • Дать практические навыки оценки качества генерации с использованием автоматических метр
Планируемые результаты обучения

Планируемые результаты обучения

  • Научатся понимать принципы построения и функционирования мультимодальных нейронных сетей
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в мультимодальные нейросети
  • Контрастивное обучение и CLIP/CLAP
  • Модели text2image
  • Мультимодальные энкодеры
  • Аудиомодальность и её представление
  • Визуальная модальность и архитектуры визуальных энкодеров
  • Видео как модальность и работа с видеопотоками
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание 3.
    Реализация системы Visual Question Answering (VQA) с использованием подхода Retrieval-Augmented Generation (RAG).
  • неблокирующий Домашнее задание 1.
    Обучение линейного адаптера CLAP для отображения аудио векторов в текстовое пространство CLIP на датасете AudioCaps.
  • неблокирующий Домашнее задание 2.
    Добавление аудио- или визуального входа (на выбор) в QWEN 0.5B. Адаптация модели для генерации описаний изображений на датасете Flickr30k.
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 2nd module
    0.3 * Домашнее задание 1. + 0.3 * Домашнее задание 2. + 0.4 * Домашнее задание 3.
Список литературы

Список литературы

Рекомендуемая основная литература

  • Deep learning, Goodfellow, I., 2016
  • Dhariwal, P., & Nichol, A. (2021). Diffusion Models Beat GANs on Image Synthesis.
  • Глубокое обучение с точки зрения практика, Паттерсон, Дж., 2018

Рекомендуемая дополнительная литература

  • Mehryar Mohri, Afshin Rostamizadeh, & Ameet Talwalkar. (2018). Foundations of Machine Learning, Second Edition. The MIT Press.

Авторы

  • Яковлева Илона Александровна
  • Ахмедова Гюнай Интигам кызы