Применение диффузионных вероятностных моделей к системам синтеза речи и методы ускорения их работыApplication of diffusion probabilistic models to speech synthesis systems and methods of their acceleration
Соискатель:
Руководитель:
Члены комитета:
Бурнаев Евгений Владимирович (Сколковский институт науки и технологий, д.ф.-м.н., председатель комитета), Андреев Павел Константинович (HeyGen Canada Incorporated, к.комп.н., член комитета), Коротин Александр Андреевич (Сколковский институт науки и технологий, к.ф.-м.н., член комитета), Савченко Андрей Владимирович (НИУ ВШЭ, д.т.н., член комитета), Шуранов Евгений Витальевич (Техкомпания Хуавей, к.т.н., член комитета)
Диссертация принята к предварительному рассмотрению:
9/18/2025
Диссертация принята к защите:
11/27/2025
Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
2/27/2026
В рамках диссертации рассмотрены системы синтеза речи, решающие задачи генерирования речи по тексту и копирования голоса из одного речевого фрагмента в другой. Указанные системы основаны на диффузионных вероятностных моделях, и для их ускорения предложены два метода: обобщение одного из типов диффузионных моделей до моделей с более подходящим проблеме априорным распределением и метод решения СДУ, обладающий некоторыми оптимальными свойствами с точки зрения правдоподобия. Кроме того, проанализирован улучшенный алгоритм копирования голоса, рассматривающий данную проблему с точки зрения транспортной задачи и поиска её оптимального решения.
Диссертация [*.pdf, 13.33 Мб] (дата размещения 11/1/2025)
Резюме [*.pdf, 1.83 Мб] (дата размещения 11/1/2025)
Summary [*.pdf, 1.79 Мб] (дата размещения 11/1/2025)
Публикации, в которых излагаются основные результаты диссертации
V. Popov, A. Amatov, M. Kudinov, V. Gogoryan, T. Sadekova, I. Vovk Optimal Transport in Diffusion Modeling for Conversion Tasks in Audio Domain (смотреть на сайте журнала)
V. Popov, I. Vovk, V. Gogoryan, T. Sadekova, M. Kudinov, J. Wei Diffusion-Based Voice Conversion with Fast Maximum Likelihood Sampling Scheme (смотреть на сайте журнала)
V. Popov, I. Vovk, V. Gogoryan, T. Sadekova, M. Kudinov Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech (смотреть на сайте журнала)
Отзывы
Отзыв научного руководителя
- Отзыв научного руководителя (дата размещения 10/23/2025)
Отзыв члена Комитета
- Бурнаев Евгений Владимирович (дата размещения 2/13/2026)
- Шуранов Евгений Витальевич (дата размещения 2/13/2026)
- Савченко Андрей Владимирович (дата размещения 2/13/2026)
- Коротин Александр Андреевич (дата размещения 2/13/2026)
- Андреев Павел Константинович (дата размещения 2/13/1926)
Сведения о результатах защиты:
Комитет по диссертации рекомендовал присудить ученую степень кандидата наук (протокол № 2 от 27.02.2026)
Ключевые слова:
См. на ту же тему
Исследование технологий для задачи клонирования голоса и методов их улучшенияКандидатская диссертация
Соискатель: Садекова Таснима Равилевна
Руководитель: Наумов Алексей Александрович
Дата защиты: 3/4/2026