• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Преобразование голоса на основе распределения фонем и «энкодер-декодер» моделей

ФИО студента: Гогорян Владимир Самвелович

Руководитель: Наумов Алексей Александрович

Кампус/факультет: Факультет компьютерных наук

Программа: Статистическая теория обучения (Магистратура)

Год защиты: 2021

Современные системы преобразования голоса привлекли большое внимание среди исследователей в последние годы. Несмотря на прогресс в данной области, решения для сценария, в котором дикторы разговаривают на разных языках, остаются малоизученными. Сложность задачи состоит в существенном разнообразии фонетического набора в тренировочных данных. В данной работе исследуется эффективность решения задачи преобразования голоса с помощью фонемного распределения, которое является независимым относительно языка и не несет информации об исходном дикторе, что потенциально позволяет упростить межязыковые преобразования. В ходе исследования мы постепенно движемся в сторону межязыковой модели, которая не требует для обучения параллельных данных и может поддерживать произвольное количество целевых голосов. Для этого сперва обучается модуль для извлечения фонемного распределения из акустических признаков, который будет работать не только для тренировочной выборки, но и для любых новых спикеров. Далее используются модели синтеза речи, которые генерируют аудиозаписи для одного спикера, для получения результатов в режиме any-to-one (Tacotron 2, FastSpeech). Затем для улучшения результатов используются архитектуры, которые масштабируют модель до режима any-to-many с помощью подходов, поддерживающих количество целевых спикеров больше одного (multi-speaker Tacotron 2, FastSpeech2). Исследуется вариант работы моделей в режиме any-to-any с помощью предобученного акустического кодировщика, которые позволяет генерировать эмбеддинги для спикеров, отсутствующих в тренировочной выборке. Предлагается также решить проблему, формулируя ее в терминах генеративно-состязательных сетей для режима any-to-any. Эффективность предложенных методов исследуется на наборе данных, который представлен дикторами, говорящими на русском и английском языках. Выбор языков обусловлен различиями в представленных ими фонетических наборах.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ