• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Почему предобучение работает на свёрточных нейронных сетях?

ФИО студента: Голиков Евгений Александрович

Руководитель: Ветров Дмитрий Петрович

Кампус/факультет: Факультет компьютерных наук

Программа: Науки о данных (Магистратура)

Оценка: 8

Год защиты: 2019

Задача transfer learning состоит в использовании данных из одной области (источника) в обучении на данных из другой области – целевой. Объектом исследования данной работы является один из методов решения данной задачи – предобучение с учителем [Yosinski et al, 2014]. Этот метод с успехом применятся в задачах классификации изображений. Потому как такие задачи в наше время решаются с помощью свёрточных нейронных сетей, причины успеха предобучения могут состоять в следующем: 1. Ядра свёрточных слоёв, обученных на данных из источника, "полезны" для обучения на целевых данных; 2. Процедура предобучения ставит эти ядра в "правильном" порядке. Как правило, полагают, что оба фактора значимы. Однако, недавняя работа [Atanov et al., 2019] даёт основания предположить, что последний фактор значимым не является. Цель данной работы состоит в том, чтобы проверить, как переупорядочивание предобученных ядер свёрточных слоёв влияет на качество обучения на целевых данных. Мы сравниваем два подхода: предобучение, и предобучение с последующим перемешиванием ядер. Основные результаты: Для неглубоких сетей: 1. Дообучение перемешанных ядер даёт результаты не хуже, чем дообучение неперемешанных, в случае, когда данные источника и целевые данные различны; 2. Степень изменения предобученных перемешанных ядер после дообучения почти такая же, как и у предобученных неперемешанных ядер. Для глубоких сетей: 1. Перемешивание предобученных ядер последних нескольких свёрточных слоёв улучшает обобщающую способность; перемешивание ядер с большего числа слоёв ухудшает результат. Представленные результаты позволяют сделать следующие выводы: 1. Порядок ядер, полученный после предобучения на данных источника, не обязан являться наилучшим для дообучения на целевых данных; 2. Перемешивание предобученных ядер положительно сказывается на обобщающей способности сети на целевых данных. По этой причине, эту процедуру можно рассматривать как метод регуляризации.

Текст работы (работа добавлена 21 мая 2019 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ