• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Трансформеры в условиях ограниченных ресурсов: масштабируемость и эффективность обучения и инференсаResource-Constrained Transformers: Scalable, EfficientTraining and Inference

Соискатель:
Мезенцев Глеб Владимирович
Руководитель:
Оселедец Иван Валерьевич (др. работы под рук-вом)
Члены комитета:
Наумов Алексей Александрович (РАН, д.комп.н., председатель комитета), Бурцев Михаил Сергеевич (Лондонский институт математических наук, к.ф.-м.н., член комитета), Игнатов Дмитрий Игоревич (НИУ ВШЭ, к.т.н., член комитета), Николенко Сергей Игоревич (РАН, д.ф.-м.н., член комитета), Тюкин Иван Юрьевич (АНО ВО «Сколковский институт науки и технологий», д.т.н., член комитета)
Диссертация принята к предварительному рассмотрению:
1/29/2026
Диссертация принята к защите:
2/26/2026
Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
6/16/2026
Трансформеры широко применяются для моделирования последовательностей, однако по мере роста размера моделей и объёмов данных, их обучение и применение требуют всё больше вычислительных ресурсов и всё чаще упираются в практические ограничения. В реальных условиях вычислительные ресурсы и доступная память всегда конечны, поэтому повышение эффективности важно как для научных исследований, так и для промышленного использования.

В диссертации предлагаются методы повышения эффективности моделей на основе трансформеров, направленные на снижение затрат видеопамяти и уменьшение времени выполнения при сохранении конкурентоспособного качества моделей. Подходы оцениваются в задачах обработки естественного языка (NLP) и рекомендательных систем (RecSys) - двух прикладных областях крупномасштабного моделирования последовательностей. Во-первых, предлагается метод параметроэффективного дообучения (PEFT), который разреживает обновления линейных преобразований в MLP: обновления переносятся в более информативное низкоразмерное пространство, благодаря чему в ходе дообучения изменяется лишь небольшая структурированная часть весов модели. Во-вторых, вводятся два метода обучения для последовательных рекомендаций при большом каталоге, использующие стохастические аппроксимации целевой функции кросс-энтропии, что делает оптимизацию масштабируемой. Наконец, исследуется феномен неавторегрессионного декодирования в авторегрессионных больших языковых моделях: выявляются и анализируются внутренние представления, обеспечивающие возможность такого поведения. Эксперименты в NLP и RecSys показывают, что предложенные подходы устойчиво превосходят сильные базовые методы при сопоставимых вычислительных бюджетах.
Диссертация [*.pdf, 12.25 Мб] (дата размещения 2/10/2026)
Резюме [*.pdf, 2.06 Мб] (дата размещения 2/10/2026)
Summary [*.pdf, 2.03 Мб] (дата размещения 2/10/2026)

Отзывы
Отзыв научного руководителя
Отзыв члена Комитета
Сведения о результатах защиты:
Комитет по диссертации рекомендовал присудить ученую степень кандидата наук (протокол № 2 от 16.06.2026). Решением диссертационного совета (протокол № 7 от 23.05.2026) присуждена ученая степень кандидата компьютерных наук.
См. на ту же тему

Вычислительно-эффективные методы анализа данных тандемной масс-спектрометрииКандидатская диссертация

Соискатель: Аквей Фрэнк Лоренс Ний Адокквей
Руководитель: Кертес-Фаркаш Аттила
Дата защиты: 10/17/2025