• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
ФИО студента
Название работы
Руководитель
Факультет
Программа
Оценка
Год защиты
Медянкин Никита Сергеевич
Automatic Extraction and Classification of Verb and Nominalization Constructions from Syntactic Corpus of Russian
8
2016
The main goal of this work was to develop a tool for automatic extraction of constructions for a given lemma from dependency annotated treebank of Russian texts, and their preliminary classification, as well as to present the means of processing said corpus, and test the quality of the results. The main motivation behind the development of such tool is its supposed utility for aiding in extension of Russian FrameBank using Russian National Corpus.

The work is focused on extraction of verb constructions and, to a lesser extent, on nominal constructions. The scope of this work does not include semantic frame labeling, instead restricting itself to the extraction of surface representation, although some proposals for possible developments are made.

As a result, a web application with aforementioned capabilities was developed with flexible interface built upon it that allows the user to choose from numerous options for the purpose of refining the results. As of this writing, an alpha-version of the web application is available, which allows to extract constructions from a version of SynTagRus as well as from a part of reannotated Russian National Corpus. However, combined with RU Syntax command line tool, it is possible to annotate and add other corpora. The web application in question can be considered the next step in developing the idea behind RNC Sketches. It was evaluated against random 200 examples from FrameBank yielding 80.0% recall for extraction of subjects, 84.9% for direct objects, and 81.0% for periphery.

Further work may include conducting additional experiments on extraction of non-intrinsic subjects based on long-distance dependencies to refine the extracting rules. The other followup may be implementing of automatic frame labeling based on individual patterns of extracted parts’ features and relation labels. Of certain interest is also developing the means of detecting non-intrinsic subject for nominalizations.
Текст работы (работа добавлена 7 июня 2016г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Расширенный поиск ВКР