• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Система распознавания для английского курсивного рукописного текста

ФИО студента: Салтыкова Маргарита Юрьевна

Руководитель: Веретенникова Мария Александровна

Кампус/факультет: Факультет экономических наук

Программа: Статистическое моделирование и актуарные расчеты (Магистратура)

Год защиты: 2020

Одним из основных направлений в области распознавания текстов в настоящее время является задача распознавания курсивных рукописных текстов. Почерк каждого человека уникален и некоторые буквы могут быть совершенно не похожими по начертанию, иметь различные размеры и форму, наклон письма. Кроме того, курсивное написание слов содержит соединение между буквами. По этой причине применение алгоритмов для распознавания отдельных символов после сегментации слова на буквы приводит к меньшему уровню качества распознавания по сравнению с рукописным «печатным» текстом. В данной работе для распознавания курсивного текста применялись скрытые марковские модели и сверточно-рекуррентные нейронные сети. Данные алгоритмы позволяют решать проблему расшифровки текстов без применения сегментации строки на слова и буквы. Неявная сегментация строк является одним из результатов работы данных алгоритмов. В качестве одного из способов извлечения признаков для реализации скрытой марковской модели был рассмотрен вариационный автокодировщик. Данный метод позволяет переводить входной вектор в пространство меньшей размерности. При этом моделируются не сами латентные переменные, а их распределение. Наличие случайности в извлечении признаков вносит в модель регуляризацию. Получить хорошие результаты распознавания с помощью скрытых марковских моделей не удалось. Данный алгоритм требует много вычислительных ресурсов, поэтому была проведена только одна итерация обучения. Однако в работе показано, что вариационный автокодировщик может быть использован как метод извлечения признаков для скрытых марковских моделей. Результаты применения сверточно-рекуррентных нейронных сетей показали хорошие результаты распознавания. Согласно метрике, основанной на расстоянии Левенштейна, верная транскрипция и прогноз модели схожи на 95%. Полученная модель безошибочно распознает 46% строк.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ