• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Автоматический анализ прагматики и дискурса в диалогах на повседневные темыAutomatic Discourse and Pragmatics Analysis of Casual Conversations

Соискатель:
Остякова Лидия Николаевна
Члены комитета:
Клышинский Эдуард Станиславович (Национальный исследовательский университет «Высшая школа экономики» , д-р филол. наук, председатель комитета), Митренина Ольга Владимировна (Санкт-Петербургский государственный университет, канд. филол. наук, член комитета), Никишина Ирина Александровна (Гамбургский университет, канд. тех. наук, член комитета), Рыжова Дарья Александровна (Национальный исследовательский университет "Высшая школа экономики", канд. филол. наук, член комитета), Трнавац Радослава (Национальный исследовательский университет «Высшая школа экономики» , PhD, член комитета)
Диссертация принята к предварительному рассмотрению:
7/31/2025
Диссертация принята к защите:
9/12/2025
Дисс. совет:
Совет по филологии
Дата защиты:
10/27/2025
В диссертации исследуется теория речевых функций как альтернативный подход к анализу дискурса в диалогах на повседневные темы, а также таксономия, разработанная на её основе. Одним из результатов работы является создание первого открытого корпуса с такой разметкой на материале «DailyDialog» . Также для аннотации речевых функций была разработана инструкция в виде дерева решений, которая позволяет аннотаторам без должного уровня знаний в лингвистике быстро ориентироваться в таксономии, включающей 34  тега.Основная цель работы заключается в исследовании возможностей автоматической аугментации данных с лингвистической аннотацией при помощи больших языковых моделей. Дискурсивная разметка отличается высокими затратами, необходимостью привлечения квалифицированных специалистов и часто субъективной формулировкой задач. По этим причинам большие языковые модели рассматриваются в качестве инструмента для аугментации и автоматизации разметки. В работе рассматриваются несколько способов масштабирования данных с использованием моделей: 1) аннотация речевых функций, 2) генерация примеров высказываний, 3) гибридный подход, объединяющий ответы моделей и неподготовленных аннотаторов. Эксперименты по автоматической аннотации продемонстрировали, что этот подход является одним из самых перспективных, так как обеспечивает качество, сравнимое с краудсорсингом, но требует при этом меньше затрат. Более того, различные стратегии инструктирования моделей позволяют добиваться улучшения качества. В данном случае гибридная аннотация, которая предполагает объединение ответов моделей и непрофессиональных разметчиков, не обеспечивает надёжность результатов и высокое качество разметки. Генерация синтетических примеров с разметкой речевых функций позволяет быстро масштабировать данные, однако такой подход требует контроля качества, в том числе ручной проверки соответствия сгенерированных тегов заявленной речевой функции. Использование автоматических метрик не позволяет надёжно контролировать такой процесс.
Диссертация [*.pdf, 3.48 Мб] (дата размещения 8/27/2025)
Резюме [*.pdf, 518.23 Кб] (дата размещения 8/27/2025)
Summary [*.pdf, 450.20 Кб] (дата размещения 8/27/2025)

Отзывы
Отзыв научного руководителя
Отзыв члена Комитета
Сведения о результатах защиты:
Комитет по диссертации рекомендовал присудить ученую степень кандидата филологических наук с отличием (протокол № 2 от 27.10.2025). Решением диссертационного совета (протокол №11 от 31.10.2025) присуждена ученая степень кандидата филологических наук с отличием.