Методы машинного обучения для контроля качества данных в научных экспериментахMachine learning methods for data quality monitoring in natural sciences

Соискатель:

Борисяк Максим Александрович

Руководитель:

Устюжанин Андрей Евгеньевич (др. работы под рук-вом)

Члены комитета:

Игнатов Дмитрий Игоревич (Национальный исследовательский университет "Высшая школа экономики" (Нижний Новгород), кандидат технических наук, председатель комитета), Артемов Алексей Валерьевич (Сколковский институт науки и технологий, кандидат физико-математических наук, член комитета), Атилим Гунеш Байдин (Университет Оксфорда, PhD, член комитета), Бурцев Михаил Сергеевич (Московский физико-технический институт (национальный исследовательский университет), кандидат физико-математических наук, член комитета), Жиль Лупп (Университет Льежа, PhD, член комитета)

Диссертация принята к предварительному рассмотрению:

8/7/2020

Диссертация принята к защите:

9/22/2020 (протокол №12)

Дисс. совет:

Совет по компьютерным наукам

Дата защиты:

10/15/2020

В современных экспериментах контроль качества данных играет ключевую роль. С ростом сложности экспериментальных установок контроль качества данных все сильнее и сильнее опирается на методы машинного обучения. В данной диссертации рассматриваются главные свойства систем контроля качества данных и связанные с ними задачи машинного обучения. Во-первых, рассматривается краеугольный камень контроля качества данных - детектирование аномалий. Показано, что существующие методы не полностью покрывают весь спектр задач детектирования аномалий и предлагается новое семейство методов, которые устойчивы к новым видам аномалий и несбалансированным обучающим выборкам. Во-вторых, предлагается алгоритм определения источников аномалий, который увеличивает возможности систем контроля качества данных. Дополнительно рассматриваются задачи сбора обучающих выборок для тренировки алгоритмов контроля качества данных, а именно: ручная разметка и генерация данных средствами компьютерных симуляций. Продемонстрировано, что активное обучение способно значительно снизить нагрузку на экспертов при ручной разметке данных. Чтобы гарантировать корректность обучения на сгенерированных данных, рассматривается задача тонкой настройки компьютерных симуляций и предлагается новое семейство состязательных дивергенций, позволяющих значительно ускорить процедуры тонкой настройки.

Диссертация [*.pdf, 6.77 Мб] (дата размещения 8/7/2020)

Резюме [*.pdf, 3.93 Мб] (дата размещения 8/7/2020)

Summary [*.pdf, 3.88 Мб] (дата размещения 8/7/2020)

Публикации, в которых излагаются основные результаты диссертации

Borisyak, M., Gaintseva, T., Ustyuzhanin, A. Adaptive divergence for rapid adversarial optimization

Borisyak, M., Ryzhikov, A., Ustyuzhanin, A., (...), Ratnikov, F., Mineeva, O. (1 + ε)-class classification: An anomaly detection method for highly imbalanced or incomplete data sets

Borisyak, M., Ratnikov, F., Derkach, D., Ustyuzhanin, A. Towards automation of data quality system for CERN CMS experiment

Azzolini, V., Borisyak, M., Cerminara, G., (...), Ustyuzhanin, A., Vlimant, J.-R. Deep learning for inferring cause of data anomalies

Отзывы

Отзыв научного руководителя

Отзыв научного руководителя (дата размещения 8/7/2020)

Отзыв члена Комитета

Отзыв члена Комитета (дата размещения 10/5/2020)
Отзыв председателя комитета (дата размещения 10/6/2020)
Отзыв члена комитета (дата размещения 10/6/2020)
Отзыв члена Комитета (дата размещения 10/5/2020)
Отзыв члена Комитета (дата размещения 10/3/2020)

Сведения о результатах защиты:

Комитет по диссертации рекомендовал присудить ученую степень кандидата наук (протокол № 2 от 15.10.2020). Решением диссертационного совета (протокол № 15 от 26.10.2020) присуждена ученая степень кандидата компьютерных наук.

Ключевые слова:

компьютерные симуляции научных экспериментов, генерация данных, детектирование аномалий, контроль качества данных, методы машинного обучения, ручная разметка, состязательные дивергенции