Интерпретация представления знаний в нейросетевых моделях автоматической обработки естественного языкаInterpreting Knowledge Representation in NLP Models

Соискатель:

Сериков Олег Алексеевич

Руководитель:

Бонч-Осмоловская Анастасия Александровна (др. работы под рук-вом)

Члены комитета:

Митрофанова Ольга Александровна (Санкт-Петербургский государственный университет , канд. филол. наук, председатель комитета), Бадрызлова Юлия Геннадьевна (Национальный исследовательский университет «Высшая школа экономики», канд. филол. наук, член комитета), Объедков Сергей Александрович (Дрезденский технический университет (Германия), канд. тех. наук, член комитета), Пиперски Александр Чедович (Российский государственный гуманитарный университет, канд. филол. наук, член комитета), Соловьев Валерий Дмитриевич (Казанский (Приволжский) федеральный университет, д-р физ.-мат. наук, профессор, член комитета)

Диссертация принята к предварительному рассмотрению:

3/29/2024

Диссертация принята к защите:

4/17/2024

Дисс. совет:

Совет по филологии

Дата защиты:

6/19/2024

Большие языковые модели оказались очередной крупной вехой в развитии искусственного интеллекта: модели справляются с языковыми задачами, не требуя явного указания алгоритмов их решения. В исследовании представлен анализ механизмов, лежащих в основании этой ключевой способности языковых моделей. Проводится анализ промежуточных представлений языковых единиц, вычисляемых нейросетевыми моделями языка по ходу решения задач языкового моделирования. Эксперименты проводятся в методологии пробинга. В начале проведён пробинг представленности грамматики в представлениях больших языковых моделей. Грамматические эксперименты проведены на двух выборках языков --- пробной (4 европейских языка) и затем типологически разнообразной (более сотни языков). Затем, как и в случае с типологическим сравнением языков, использовано множество грамматических категорий для оценки грамматических характеристик моделей. На основании проведённых экспериментов удаётся выделить важную черту процесса усвоения грамматического знания в слоях модели: раннее установление специализации слоёв в моделях. Дальнейшие эксперименты затрагивают иные виды знания в языковых моделях. Промежуточные векторные представления нейросетей анализируются с точки зрения семантики, что позволяет обнаружить иерархическую организацию векторного пространства. Затем подобная же иерархическая структура обнаруживается и в пространстве представлений фактов --- знания экстралингвистического. Результаты экспериментов описаны в опубликованных статьях, а исходный код находится в открытом доступе.

Диссертация [*.pdf, 2.66 Мб] (дата размещения 4/17/2024)

Резюме [*.pdf, 578.06 Кб] (дата размещения 4/17/2024)

Summary [*.pdf, 561.66 Кб] (дата размещения 4/17/2024)