• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Универсальные морфосинтаксические маркеры стиля в задачах компьютерной стилометрии

ФИО студента: Пимонова Елена Владимировна

Руководитель: Дурандин Олег Владимирович

Кампус/факультет: Факультет гуманитарных наук (Нижний Новгород)

Программа: Фундаментальная и прикладная лингвистика (Бакалавриат)

Оценка: 10

Год защиты: 2020

В текущем исследовании решается задача атрибуции, то есть определения автора письменного текста на основании набора текстов, принадлежащих авторам-кандидатам. Материалом для исследования служат тексты русской и английской классики XVII – XX веков. Русский корпус состоит из 324 текстов 30 русских классиков, а английский корпус включает 207 текстов, принадлежащих 34 авторам английской классики. Для решения задачи классификации текстов по авторам разрабатываются лингвистические модели текстовой репрезентации, в основу которых заложены морфосинтаксические особенности английской и русской грамматики. Простые морфологическая и синтаксическая модели основаны на количественном подсчёте частей речи и синтаксических отношений, выделяемых в синтаксическом анализаторе UDPipe. В усложнённой морфологической модели предлагаются критерии морфолого-семантического анализа, а в усложнённой синтаксической модели языковые явления распределяются по двум уровням: словосочетания и предложения. В целом, представленные морфосинтаксические модели показали хороший результат. В 20 экспериментах из 24 они опередили Doc2Vec модель, которая была выбрана в качестве baseline. Лучшая точность, полученная комбинацией морфосинтаксических признаков, для русского языка составляет 85%, а для английского – 80%. А при совместном использовании с Doc2Vec достигается лучший результат, а именно: 90% – для русского и 96% – для английского. Всё это позволяет сделать вывод о том, что морфосинтаксические модели текстовой репрезентации могут быть успешно применены в задаче автоматического определения авторства. Особенно, если учитывать тот факт, что они дают полностью интерпретируемый результат. Это подтверждается анализом ошибок и важных атрибутов. Анализ ошибок позволил выявить основания для сходства стилей писателей, а анализ важных атрибутов помог определить универсальные и специфичные стилеобразующие признаки в русском и английском языке.

Текст работы (работа добавлена 6 июня 2020 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ