• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Автоматическое выделение и классификация глагольных и именных номинализованных конструкций из синтаксически размеченного корпуса

ФИО студента: Медянкин Никита Сергеевич

Руководитель: Ляшевская Ольга Николаевна

Кампус/факультет: Факультет гуманитарных наук

Программа: Компьютерная лингвистика (Магистратура)

Оценка: 8

Год защиты: 2016

Цель работы — создать инструмент для извлечения конструкций для заданной леммы из аннотированного трибанка русских текстов и предварительной классификации извлеченных конструкций. В задачи работы также входило представить способ разметки трибанка для дальнейшего использования и протестировать качество результатов извлечения конструкций. Основной мотивацией в разработке подобного инструмента является его дальнейшее использование в задаче пополнения русского ФреймБанка конструкциями из Национального корпуса русского языка. Извлечение конструкций ограничено их поверхностной репрезентацией, автоматическое определение семантических ролей не входит в задачи работы. Основным результатом является разработанное веб-приложение для извлечения и классификации поверхностного представления конструкций. Приложение обладает гибким интерфейсом, позволяющим пользователю настраивать результаты извлечения. В настоящее время доступна альфа-версия приложения, позволяющая извлекать конструкции из СинТагРуса и части Национального корпуса русского языка, содержащей тексты, датированные после 1950 года. С использованием предложенного в работе способа автоматической разметки при помощи инструмента RU Syntax, к веб-приложению могут быть добавлены другие корпуса. Разработанное веб-приложение можно рассматривать как следующий шаг в развитии ресурса RNC Sketches. Приложение было протестировано на 200 случайных примерах конструкций из русского ФреймБанка. Полнота выделения субъекта составила 80,0%, объекта — 84.9%, периферии — 81.0%. Дальнейшая работа может включать в себя проведение дополнительных экспериментов по выделению несобственного субъекта с целью улучшения правил извлечения. Также представляют интерес задачи автоматического определения семантических ролей и выделения несобственного субъекта для номинализаций.

Текст работы (работа добавлена 7 июня 2016 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ