Исследование технологий для задачи клонирования голоса и методов их улучшенияInvestigating voice cloning technologies and methods of their improvement
Соискатель:
Руководитель:
Члены комитета:
Кузнецов Сергей Олегович (НИУ ВШЭ, д.ф.-м.н., председатель комитета), Андреев Павел Константинович (HeyGen Canada Incorporated, к.комп.н., член комитета), Карпов Алексей Анатольевич (РАН, д.т.н., член комитета), Рюмин Дмитрий Александрович (РАН, к.т.н., член комитета), Шуранов Евгений Витальевич (ООО «Техкомпания Хуавей», к.т.н., член комитета)
Диссертация принята к предварительному рассмотрению:
10/31/2025
Диссертация принята к защите:
12/25/2025
Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
3/4/2026
В рамках диссертации были исследованы различные архитектуры синтеза речи применительно к задаче клонирования голоса и предложена новая диффузионная модель. Рассматривались два сценария: кодирование по одному короткому аудио и адаптация части модели - и оптимальные способы их реализации. В качестве улучшений проверялась идея объединения диффузионных и генеративно-состязательных моделей с целью ускорения генерации речи, а также предложен метод модификации векторов голоса для синтеза эмоциональных записей.
Диссертация [*.pdf, 8.47 Мб] (дата размещения 12/30/2025)
Резюме [*.pdf, 1.05 Мб] (дата размещения 12/30/2025)
Summary [*.pdf, 1.00 Мб] (дата размещения 12/30/2025)
Публикации, в которых излагаются основные результаты диссертации
T. Sadekova, V. Gogoryan, I. Vovk, V. Popov, M. Kudinov, J. Wei A Unified System for Voice Cloning and Voice Conversion through Diffusion Probabilistic Modeling (смотреть на сайте журнала)
Z. Shaheen, T. Sadekova, Y. Matveeva, A. Shirshova, M. Kudinov Exploiting Emotion Information in Speaker Embeddings for Expressive Text-to-Speech (смотреть на сайте журнала)
I. Vovk, T. Sadekova, V. Gogoryan, V. Popov, M. Kudinov, J. Wei Fast Grad-TTS: Towards Efficient Diffusion-Based Speech Generation on CPU (смотреть на сайте журнала)
Отзывы
Отзыв научного руководителя
- Отзыв научного руководителя (дата размещения 11/9/2025)
Отзыв члена Комитета
- Отзыв Рюмина Дмитрия Александровича (дата размещения 2/18/2026)
- Отзыв Шуранова Евгения Витальевича (дата размещения 2/18/2026)
- Отзыв Кузнецова Сергея Олеговича (дата размещения 2/19/2026)
- Отзыв Карпова Алексея Анатольевича (дата размещения 2/18/2026)
- Отзыв Андреева Павла Константиновича (дата размещения 2/18/2026)
См. на ту же тему
Применение диффузионных вероятностных моделей к системам синтеза речи и методы ускорения их работыКандидатская диссертация
Соискатель: Попов Вадим Сергеевич
Руководитель: Наумов Алексей Александрович
Дата защиты: 2/27/2026