Система проверки орфографии для башкирского языка

ФИО студента: Татаринов Дмитрий Юрьевич

Кампус/факультет: Факультет гуманитарных наук

Программа: Фундаментальная и компьютерная лингвистика (Бакалавриат)

Оценка: 8

Год защиты: 2019

Данная работа представляет собой исследовательскую работу, по разработке алгоритма автоматической проверки напечатанных текстов на башкирском языке. Цель данной работы – изучить уже существующие решения для создания спелл-чекеров, расписать сильные и слабые стороны этих решений, разработать собственный алгоритм, а также предложить решения по улучшению качества работы разработанной модели. В качестве примера, в работе рассмотрены три распространённых подхода к решению задачи текстовой классификации. Во-первых, это модели работающие при помощи нейронных сетей. Во-вторых, модели работающие при помощи методов машинного бучения, использующие модели обучения SVM (Метод Опорных Векторов) и модели построения деревьев зависимости. В-третьих, это построение векторных представлений текстовых данных с дальнейшим решением задачи выделения дистанции (разницы) между построенными векторами их текстовым представлением. После изучения уже существующих методов, было принято решение разработать свой собственно алгоритм проверки напечатанных текстов на основе логики скрытых моделей Маркова, а также с использованием формулы для вычисления вероятностей существования цепей Маркова. Основная идея заключается в том, что последовательность символов в языке закономерна и имеет свою математическую зависимость. Рассчитав вероятно существования для всех возможных комбинаций, можно произвести анализ новой словоформы и на основе последовательности символов определить приемлемость данного токена в парадигме башкирского языка. Помимо описания разработки также присутствует описание проведения тестирования разработанного алгоритма. Тестирование проходит в три этапа с использованием различных типов данных. Первое тестирование проходит на правильных и специально сгенерированных неправильных словоформах с перемешанным порядком символов. Второе тестирование проходит на текстах, распознанных с помощью технологии OCR. Финальные тесты проходят на написанных людьми статьях из башкирской википедии. В результате работы удалось разработать модель определения неправильных словоформ в напечатанных текстах для Башкирского языка. Модель имеет гибкую систему построения процессов, что позволит добиться лучшего результата при помощи предобработки текстов или добавления более сложной системы вычислений.

Текст работы (работа добавлена 4 июня 2019 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ