Эталонное тестирование языковых моделей на задачах понимания естественного языкаBenchmarking transformer language models on natural language understanding tasks
Соискатель:
Михайлов Владислав Николаевич
Руководитель:
Артемова Екатерина Леонидовна (др. работы под рук-вом)
Члены комитета:
Наумов Алексей Александрович (НИУ ВШЭ, д.ф.-м.н., председатель комитета), Лоран Бесасье (NAVER LABS Europe, PhD, член комитета), Преслав Наков (MBZUAI, PhD, член комитета), Чагры Чёлтекин (Department of General and Computational Linguistics, Universityof Tübingen, PhD, член комитета), Шиморина Анастасия Сергеевна (Orange, PhD, член комитета)
Диссертация принята к предварительному рассмотрению:
6/9/2023
Диссертация принята к защите:
7/27/2023
Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
8/25/2023
В области обработки естественного языка эталонное тестирование (англ. benchmarking) является общепринятой методологией оценки обобщающей способности современных языковых моделей на основе архитектуры «Трансформер». Однако существующие бенчмарки разработаны для малого количества языков и используют методы агрегации результатов, не соответствующие многообразию критериев оценки. В данной работе впервые предложены бенчмарки для оценки языковых моделей на задачах понимания русского языка и новые методы агрегации результатов эталонного тестирования, учитывающие предпочтения конечного пользователя. В работе представлены результаты эталонного тестирования более ста языковых моделей и их конфигураций относительно уровня человека в различных экспериментальных постановках. Предложенные бенчмарки, кодовая база, открытые рейтинги систем, проекты по оценке людей на рассматриваемых задачах и другие материалы находятся в открытом доступе.
Диссертация [*.pdf, 6.69 Мб] (дата размещения 6/19/2023)
Резюме [*.pdf, 898.45 Кб] (дата размещения 6/19/2023)
Summary [*.pdf, 891.68 Кб] (дата размещения 6/19/2023)
Публикации, в которых излагаются основные результаты диссертации
Tatiana Shamardina, Vladislav Mikhailov et al. Findings of the The RuATD Shared Task 2022 on Artificial Text Detection in Russian (смотреть на сайте журнала)
Mark Rofin, Vladislav Mikhailov, Mikhail Florinsky, Andrey Kravchenko, Tatiana Shavrina, Elena Tutubalina, Daniel Karabekyan, Ekaterina Artemova Vote’n’Rank: Revision of Benchmarking with Social Choice Theory (смотреть на сайте журнала)
Vladislav Mikhailov, Tatiana Shamardina, Max Ryabinin, Alena Pestova, Ivan Smurov, Ekaterina Artemova RuCoLA: Russian Corpus of Linguistic Acceptability (смотреть на сайте журнала)
Laida Kushnareva, Daniil Cherniavskii, Vladislav Mikhailov, Ekaterina Artemova, Serguei Barannikov, Alexander Bernstein, Irina Piontkovskaya, Dmitri Piontkovski, Evgeny Burnaev Artificial Text Detection via Examining the Topology of Attention Maps (смотреть на сайте журнала)
Tatiana Shavrina, Alena Fenogenova, Emelyanov Anton, Denis Shevelev, Ekaterina Artemova, Valentin Malykh, Vladislav Mikhailov, Maria Tikhonova, Andrey Chertok, Andrey Evlampiev RussianSuperGLUE: A Russian Language Understanding Evaluation Benchmark (смотреть на сайте журнала)
Alena Fenogenova, Vladislav Mikhailov, Denis Shevelev Read and Reason with MuSeRC and RuCoS: Datasets for Machine Reading Comprehension for Russian (смотреть на сайте журнала)
Отзывы
Отзыв научного руководителя
- Артемова Екатерина Леонидовна (дата размещения 6/9/2023)
Сведения о результатах защиты:
Комитет по диссертации рекомендовал присудить ученую степень кандидата наук (протокол №2 от 25.08.2023). Решением диссертационного совета (протокол №9 от 08.09.2023) присуждена ученая степень кандидата компьютерных наук.
Ключевые слова:
См. на ту же тему
Интерпретация представления знаний в нейросетевых моделях автоматической обработки естественного языкаКандидатская диссертация
Соискатель: Сериков Олег Алексеевич
Руководитель: Бонч-Осмоловская Анастасия Александровна
Дата защиты: 6/19/2024
Методы оценивания языковых моделей в задачах понимания естественного языкаКандидатская диссертация
Соискатель: Тихонова Мария Ивановна
Руководитель: Шаврина Татьяна Олеговна
Дата защиты: 10/12/2023