• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Методы автоматического морфологического анализа текстов на русском языке

ФИО студента: Подледнева Елена Александровна

Руководитель: Большакова Елена Игоревна

Кампус/факультет: Отделение прикладной математики и информатики

Программа: Бакалавриат

Год защиты: 2014

<p>Работа посвящена проблемам автоматического морфологического анализа текстов на русском языке. В ней описаны различные подходы к морфологическому анализу, а также их достоинства и недостатки. Рассмотрены два морфологических анализатора для текстов русского языка, способные проводить полный морфологический анализ.</p><p>В настоящей работе изучены методы автоматического морфологического анализа и методы разрешения омонимии, исследованы два модуля морфологического анализа для русского языка на базе экспериментальных тестов. Выбран метод, основанный на наборе контекстных правил, удаляющих из числа вариантов разбора нерелевантные относительно контекста варианты разбора. Составлены и реализованы контекстные правила, частично снимающие&nbsp; морфологическую омонимию. А также проведено экспериментальное исследование результативности&nbsp; применения этих правил по отношению к протестированным анализаторам.</p><p>Решение этих задач потребовало разработки программы, позволяющей сравнивать работу анализаторов на большом объеме входных данных, а также программу для частичного снятия морфологической омонимии. &nbsp;Для тестирования функциональности анализаторов был использован размеченный корпус со снятой морфологической омонимией проекта OpenCorpora. Тестирование анализаторов показало, что точность работы анализаторов Mystem и MorphanCrossLexica примерно 20.1% и 26.3% соответственно, полнота &ndash; 82,6% и 46,64% соответственно. После постобработки морфологическая омонимия в результатах разбора данных анализаторов снимается на 7% для MorphanCrossLexica и на 18% для Mystem. Выявлено, что эффективность применения контекстных правил сильно зависит от полноты покрытия лексики морфологического анализатора. Чем ниже полнота покрытия лексики, тем менее эффективно применяются контекстные правила.</p>

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ