Автоматический анализ прагматики и дискурса в диалогах на повседневные темыAutomatic Discourse and Pragmatics Analysis of Casual Conversations
Соискатель:
Остякова Лидия Николаевна
Руководитель:
Члены комитета:
Клышинский Эдуард Станиславович (Национальный исследовательский университет «Высшая школа экономики» , д-р филол. наук, председатель комитета), Митренина Ольга Владимировна (Санкт-Петербургский государственный университет, канд. филол. наук, член комитета), Никишина Ирина Александровна (Гамбургский университет, канд. тех. наук, член комитета), Рыжова Дарья Александровна (Национальный исследовательский университет "Высшая школа экономики", канд. филол. наук, член комитета), Трнавац Радослава (Национальный исследовательский университет «Высшая школа экономики» , PhD, член комитета)
Диссертация принята к предварительному рассмотрению:
7/31/2025
Диссертация принята к защите:
9/12/2025
Дисс. совет:
Совет по филологии
Дата защиты:
10/27/2025
В диссертации исследуется теория речевых функций как альтернативный подход к анализу дискурса в диалогах на повседневные темы, а также таксономия, разработанная на её основе. Одним из результатов работы является создание первого открытого корпуса с такой разметкой на материале «DailyDialog» . Также для аннотации речевых функций была разработана инструкция в виде дерева решений, которая позволяет аннотаторам без должного уровня знаний в лингвистике быстро ориентироваться в таксономии, включающей 34 тега.Основная цель работы заключается в исследовании возможностей автоматической аугментации данных с лингвистической аннотацией при помощи больших языковых моделей. Дискурсивная разметка отличается высокими затратами, необходимостью привлечения квалифицированных специалистов и часто субъективной формулировкой задач. По этим причинам большие языковые модели рассматриваются в качестве инструмента для аугментации и автоматизации разметки. В работе рассматриваются несколько способов масштабирования данных с использованием моделей: 1) аннотация речевых функций, 2) генерация примеров высказываний, 3) гибридный подход, объединяющий ответы моделей и неподготовленных аннотаторов. Эксперименты по автоматической аннотации продемонстрировали, что этот подход является одним из самых перспективных, так как обеспечивает качество, сравнимое с краудсорсингом, но требует при этом меньше затрат. Более того, различные стратегии инструктирования моделей позволяют добиваться улучшения качества. В данном случае гибридная аннотация, которая предполагает объединение ответов моделей и непрофессиональных разметчиков, не обеспечивает надёжность результатов и высокое качество разметки. Генерация синтетических примеров с разметкой речевых функций позволяет быстро масштабировать данные, однако такой подход требует контроля качества, в том числе ручной проверки соответствия сгенерированных тегов заявленной речевой функции. Использование автоматических метрик не позволяет надёжно контролировать такой процесс.
Диссертация [*.pdf, 3.48 Мб] (дата размещения 8/27/2025)
Резюме [*.pdf, 518.23 Кб] (дата размещения 8/27/2025)
Summary [*.pdf, 450.20 Кб] (дата размещения 8/27/2025)
Публикации, в которых излагаются основные результаты диссертации
Отзывы
Отзыв научного руководителя
- Толдова С.Ю. (дата размещения 7/31/2025)
Отзыв члена Комитета
- Никишина И.А. (дата размещения 10/24/2025)
- Клышинский Э.С. (дата размещения 10/24/2025)
- Трнавац Р. (дата размещения 10/24/2025)
- Митренина О.В. (дата размещения 10/24/2025)
- Рыжова Д.А. (дата размещения 10/24/2025)
Сведения о результатах защиты:
Комитет по диссертации рекомендовал присудить ученую степень кандидата филологических наук с отличием (протокол № 2 от 27.10.2025). Решением диссертационного совета (протокол №11 от 31.10.2025) присуждена ученая степень кандидата филологических наук с отличием.
См. на ту же тему
Выявление структурных компонентов языковых моделей, ответственных за лингвистические и фактологические знания, и управление имиКандидатская диссертация
Соискатель: Плетенев Сергей Александрович
Руководитель: Толдова Светлана Юрьевна
Дата защиты: 10/29/2025
Методы автоматического вычисления мер близости в задаче кластеризации малых близкородственных идиомов (на материале славянских языков)Кандидатская диссертация
Соискатель: Афанасьев Илья Андреевич
Руководитель: Ляшевская Ольга Николаевна
Дата защиты: 9/10/2025
Применение глубоких нейросетевых моделей, учитывающих структурную лингвистическую информацию, в прикладных задачах анализа текстовых данныхКандидатская диссертация
Соискатель: Чернявский Александр Сергеевич
Руководитель: Ильвовский Дмитрий Алексеевич
Дата защиты: 6/27/2025