• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
ФИО студента
Название работы
Руководитель
Факультет
Программа
Оценка
Год защиты
Голиков Евгений Александрович
Why Does Pre-training Actually Work with Convolutional Neural Networks?
Науки о данных
(Магистратура)
8
2019
In transfer learning our goal is to transfer knowledge from a source dataset with large number of examples, to a target one which is typically small.

The subject of the present work is one of the classical techniques of transfer learning, namely supervised pre-training [Yosinski et al, 2014], which is typically used in image classification problems. Since these problems are usually solved with convolutional architectures, there can be two reasons why pre-training works well:

1 Pre-training on a source dataset provides us good kernels of conv. layers;

2 These kernels come in "right" order.

It is commonly assumed that both factors are sufficient. However, a recent work of [Atanov et al., 2019] indirectly suggests that the second factor could be insufficient. The goal of the present work is to check, how reordering pre-trained kernels affects performance on a target dataset. We compare two setups: the usual pre-training, and the same pre-training where we shuffle kernels of conv. layers before fine-tuning a network on a target dataset.

The main results are the following:

For shallow architectures:

1 Fine-tuning shuffled kernels gives at least as good results as the same setup without shuffling, when the source and the target datasets are different;

2 Fine-tuning shuffled kernels results in similar evolution of kernels in terms of cosine similarity, as the same setup without shuffling. Cosine similarity is measured between kernels after fine-tuning and kernels before fine-tuning.

For deep architectures:

1 Shuffling kernels of several top convolution layers before fine-tuning helps generalization; if more layers are shuffled, performance degrades.

Therefore, we make the following conclusions:

1 The order of kernels after pre-training on a source dataset is not necessarily optimal for fine-tuning on a target dataset;

2 Shuffling pre-trained kernels can help generalization, and hence can be seen as a method of regularization.
Текст работы (работа добавлена 21 мая 2019г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Расширенный поиск ВКР