• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Квантитативное исследование морфосинтаксических параметров и отношений на материале больших языковых корпусовQuantitative Investigation of Morpho-Syntactic Parameters and Relations Using Large Language Corpora

Члены комитета:
Слюсарь Наталия Анатольевна (Национальный исследовательский университет «Высшая школа экономики» , д-р филол. наук, председатель комитета), Апресян Валентина Юрьевна (Назарбаев Университет (Казахстан), д-р филол. наук, член комитета), Громов Василий Александрович (Национальный исследовательский университет «Высшая школа экономики» , д-р физ.-мат. наук, член комитета), Недолужко Анна (Карлов Университет (Чехия), PhD, член комитета), Соловьев Валерий Дмитриевич (Казанский (Приволжский) федеральный университет, д-р физ.-мат. наук, член комитета)
Диссертация принята к предварительному рассмотрению:
3/26/2025
Диссертация принята к защите:
4/30/2025
Дисс. совет:
Совет по филологии
Дата защиты:
6/11/2025
В диссертационной работе рассматривается вопрос автоматизации извлечения словарей глагольной сочетаемости и глагольного управления русского языка из большого корпуса неразмеченных текстов. Для обоснования особенностей русского языка, помогающих в построении указанных словарей, исследуются особенности грамматики и синтаксиса, показывается место русского языка в языковом ландшафте. В работе проведено исследование распределения слов двенадцати языков  по предлагаемым видам грамматической неоднозначности. Неоднозначность классифицируется по наличию нескольких вариантов морфологического анализа слова, отличающихся по лемме, части речи и наборам граммем. В работе показано, что русскому языку в большей мере присуща однозначность слов по части речи. С точки зрения синтаксиса исследовался материал 65 языков, представленных в коллекции корпусов Universal Dependencies. В работе предлагается новый метод оценки синтаксического ветвления, проводится ранжирование языков по присущей им строгости данного параметра в целом и по отдельным конструкциям. Также выделяются наиболее частотные синтаксические конструкции выбранных языков, проводится их сравнение.На основе собранных данных в качестве языка дальнейшего исследования выбирается русский язык. В работе сравнивается два подхода к синтаксической разметке текстов: частичный и автоматический синтаксический анализ. По результатам экспериментов был сделан вывод о необходимости применения автоматического синтаксического анализа и коррекции проявляющихся в нём ошибок. По результатам анализа статистики размеченного корпуса были построены словари предложного управления и глагольной сочетаемости. Анализ результатов позволил извлечь структуру валентностей для 15 000 глаголов и показать наличие класса глаголов с невыраженной актантной структурой. В работе предлагается новый метод группировки зависимых слов по их семантике, однако наличие глаголов с невыраженной акантной структурой не позволяет получить результаты для всех глаголов.
Диссертация [*.pdf, 12.55 Мб] (дата размещения 4/7/2025)
Резюме [*.pdf, 652.97 Кб] (дата размещения 4/7/2025)
Summary [*.pdf, 639.64 Кб] (дата размещения 4/7/2025)

Публикации, в которых излагаются основные результаты диссертации

Towards A Corpus-Based Dictionary Of Verbal Government For The Russian Language (смотреть на сайте журнала)
Высокоуровневая семантическая интерпретация структуры статических моделей для русского языка (смотреть на сайте журнала)
Visual Interpretation of Russian Static Vector Space (смотреть на сайте журнала)
Evaluation of vector transformations for Russian static and contextualized embeddings (смотреть на сайте журнала)
Chomsky Was (Almost) Right: Ontology-Based Parsing of Texts of a Narrow Domain (смотреть на сайте журнала)
Синтаксический анализ текстов предметной области при помощи онтологии (смотреть на сайте журнала)
Evaluation of vector transformations for Russian word2vec and fasttext embeddings (смотреть на сайте журнала)
Количественная оценка грамматической неоднозначности некоторых европейских языков (смотреть на сайте журнала)
A Comparison of Neural Networks Architectures for Diacritics Restoration (смотреть на сайте журнала)
Cистема процедур визуального анализа многомерных данных (смотреть на сайте журнала)
Corpus of Syntactic Co-Occurrences: A Delayed Promise (смотреть на сайте журнала)
A tool for morphologically ambiguous text processing (смотреть на сайте журнала)
Visual analysis of clusters for a multidimensional textual dataset (смотреть на сайте журнала)


Отзывы
Отзыв члена Комитета
Сведения о результатах защиты:
Комитет по диссертации рекомендовал присудить ученую степень доктора филологических наук (протокол № 2 от 11.06.2025). Решением диссертационного совета (протокол №5 от 25.06.2025) присуждена ученая степень доктора филологических наук.