• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Автоэнкодер для эффективной трансформации стиля в глубокой речевой связи

ФИО студента: Зуенко Денис Олегович

Руководитель: Макаров Илья Андреевич

Кампус/факультет: Факультет компьютерных наук

Программа: Статистическая теория обучения (Магистратура)

Оценка: 7

Год защиты: 2020

Для того чтобы сделать клонирование голоса, которое является желанным во многих индустриях связанных с фильмами мы решили взять за основу модель AutoVC, которая является state-of-the-art в задаче войс конверсейшн. Хотя, автоэкодеры не являеются сильно популярными решениями для данной задачи, мы решили, что скорость и сохранение вычислительной мощности для задачи, например вокодера, является приоритетом в наше время. Поэтому мы исследовали замены lstm на сверточные слои, при этом сохранив качество оригинальной модели. Несмотря на это GANs все-еще кажутся хорошим, но тяжелым решением, потому что их трудно тренировать. Для того, чтобы исследовать возможности автовц мы расширили датасет более шумными данными. Хорошо его почистили, и применили к нашей имплементации. Как и в оригинале мы сначала приводим данные к представлению в виде Мел-спектрограмм, после чего обучаем модели. Данный подход является популярным и эффективным, но на наш взгляд добавляет лишней сложности. Так, авторы AutoVC или других моделей использующих данный подход к данным используют вокодеры после своих моделей. Например, WaveNet, в котором для того, чтобы преобразовать один голос может потребовать времени сильно больше, чем оригинальная дорожка. Результат нашей работы показал, что замена лстм на сверточные слои улучшает показатели скорости, особенно это заметно на более длинных голосых дорожках, потому что с увелеченнием размера дорожки, лстм требует большее количство операций. А также, лстм немного замедляет обучение. В нашем же случае, обучение, даже на сложном датасете происходит быстрее. Итог, улучшение обучения и скорости, при наименьшей потери в качестве звука, о чем свидетельствует реконстрашн лосс и MCD.

Текст работы (работа добавлена 25 мая 2020 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ