• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Динамика обучения и ландшафт функции потерь нейронных сетей с масштабно-инвариантными параметрамиTraining dynamics and loss landscape of neural networks with scale-invariant parameters

Члены комитета:
Деркач Денис Александрович (НИУ ВШЭ, PhD, председатель комитета), Ли Чжиюань (Toyota Technological Institute at Chicago (TTIC), PhD, член комитета), Тараканов Александр Александрович (НИУ ВШЭ, PhD, член комитета), Устюжанин Андрей Евгеньевич ( Acronis SG, к.ф.-м.н., член комитета), Фламмарион Николас (Ecole polytechnique fédérale de Lausanne (EPFL), PhD, член комитета)
Диссертация принята к предварительному рассмотрению:
9/8/2023
Диссертация принята к защите:
11/24/2023
Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
1/23/2024
Большинство современных нейронных сетей используют в своей архитектуре те или иные техники нормализации, к примеру, пакетную нормализацию (batch normalization), что эмпирически позволяет стабилизировать обучение и добиться лучшего качества. Главным следствием нормализации является масштабная инвариантность параметров, предшествующих слоям нормализации. В данной работе приводится подробное экспериментальное и теоретическое исследование влияния свойства масштабной инвариантности на динамику обучения и ландшафт функции потерь нормализованных нейросетевых моделей. В первой части работы раскрывается эффект периодического поведения динамики обучения с использованием нормализации и сокращения веса. Во второй части работы анализируются три режима обучения масштабно-инвариантных нейронных сетей на сфере, что позволяет выделить ряд особенностей внутреннего устройства ландшафта функции потерь.
Диссертация [*.pdf, 60.61 Мб] (дата размещения 9/15/2023)
Резюме [*.pdf, 5.69 Мб] (дата размещения 9/15/2023)
Summary [*.pdf, 5.56 Мб] (дата размещения 9/15/2023)

Отзывы
Отзыв научного руководителя
Сведения о результатах защиты:
Комитет по диссертации рекомендовал присудить ученую степень кандидата наук (протокол №2 от 23.01.2024). Решением диссертационного совета (протокол №1 от 06.03.2024) присуждена ученая степень кандидата компьютерных наук.
См. на ту же тему

Глубокие порождающие модели для поиска аномалийКандидатская диссертация

Соискатель: Рыжиков Артём Сергеевич
Руководитель: Деркач Денис Александрович

Новые представления для изображений и 3D сценКандидатская диссертация

Соискатель: Хахулин Тарас Андреевич
Руководитель: Лемпицкий Виктор Сергеевич

Исследование универсальности моделей статистической механики методами машинного обученияКандидатская диссертация

Соискатель: Чертенков Владислав Игоревич
Руководитель: Щур Лев Николаевич