• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Обучение глубоких моделей на маленьких данных

ФИО студента: Атанов Андрей Игоревич

Руководитель: Ветров Дмитрий Петрович

Кампус/факультет: Факультет компьютерных наук

Программа: Статистическая теория обучения (Магистратура)

Оценка: 10

Год защиты: 2020

Современные методы глубинного обучения с учителем достигают лучших результатов по сравнению с другими методами на многих задачах. Такие методы, однако, требуют большого количества размеченных данных для обучения. Во многих прикладных задачах разметка новых данных может быть серьезной проблемой. В данной работе мы рассматриваем задачу обучения моделей глубинного обучения на небольшом количестве размеченных данных. Для постановки задачи с использованием маленькой обучающей выборкой мы воспользовались Байесовскими методами машинного обучения. Такой подход дает возможность включить в модель априорные знания с помощью выбора соответствующего априорного распределения. В данной работе мы предлагаем новый вид априорных распределений для сверточных нейронных сетей ——- deep weight prior (dwp), основанный на генеративных моделях. DWP поощряет сверточные ядра иметь такие свойства, как например пространственная скоррелированность. Мы определяем dwp как неявное распределения на веса и предлагаем метод вариационного вывода с таким новым видом априорного распределения. Экспериментально мы показываем, что dwp повышает точность Байесовский нейронных сетей в случае маленького объема обучающей выборки. Также мы показываем что инициализация весов сети семплами из dwp увеличивает скорость сходимости. Для постановки задачи где дополнительно есть доступ к не размеченному набору данных мы предложили semi-conditional normalizing flow. Данный метод использует для обучения как размеченные так и неразмеченные данных и учит явную модель совместного правдоподобия объекта и разметки. Архитектура с частичным обуславливанием позволяет эффективно вычислять значения и градиенты неполного правдоподобия. Для реализации обусловленной части архитектуры мы предложили conditional coupling layer, основанный на недавно предложенном coupling layer. Эксперементально мы показали, что предложенный метод превосходит по качеству классификации ранне предложенную модель, основанную на вариационных автокодировщиках, на датасете рукописных цифр MNIST.

Текст работы (работа добавлена 20 мая 2020 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ