• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Морфологический анализатор для эвенкийского языка

ФИО студента: Зуева Анна Вадимовна

Руководитель: Таерз Францис Мортон

Кампус/факультет: Факультет гуманитарных наук

Программа: Фундаментальная и компьютерная лингвистика (Бакалавриат)

Год защиты: 2019

Морфологический анализ является важной частью автоматической обработки текстов, в особенности для языков с богатой морфологией, к которым принадлежит эвенкийский. Несмотря на то, что уже существует несколько морфологических парсеров для эвенкийского языка, они способны произвести морфологический разбор меньше, чем для половины доступного корпуса эвенкийских текстов. Целью этой работы является разработка нового морфологического анализатора для эвенкийского языка на основе конечных преобразователей с использованием Helsinki Finite-State Transducer toolkit (HFST). Для представления инвентаря морфем и порядка их следования используется формализм lexc. Морфологические чередования и правила орфографии описываются с помощью формализма twol. Список основ извлекается из доступных оцифрованных эвенкийско-русских и русско-эвенкийских словарей. Вследствие того, что два из трех корпусов содержат тексты с диалектными особенностями, создана также версия анализатора, учитывающая часть вариативностей в диалектах. Оценка качества анализатора включает в себя измерение степени охвата (coverage), которая показывает сколько слов в тексте получают по крайней мере один морфологический разбор, и среднего числа морфологических разборов на слово (mean ambiguity) с использованием всех доступных корпусов текстов на эвенкийском. Помимо этого, с помощью аннотированного корпуса текстов вычисляется значение точности и полноты присваивания словоформам морфологических тегов. На основе морфологического анализатора создан также сегментер — конечный преобразователь, позволяющий производить морфологическую сегментацию эвенкийских словоформ. Точность и полнота сегментации аннотированных текстов, полученные с помощью сегментера, сравниваются с результатами вероятностной модели Морфессора, обученной на корпусах неразмеченных эвенкийских текстов. Согласно первоначальной гипотезе, сегментер основанный на правилах, покажет более высокие значения в сравнении со статистической моделью, и результаты подтверждают гипотезу. Степень охвата (coverage) для итоговых версий анализатора составляет от 60.59% до 87.07% для текстов разных эвенкийских корпусов.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ