• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Проблема автоматического исправление опечаток и орфографических ошибок

ФИО студента: Езерская Анастасия Кирилловна

Руководитель: Хоменко Анна Юрьевна

Кампус/факультет: Факультет гуманитарных наук (Нижний Новгород)

Программа: Фундаментальная и прикладная лингвистика (Бакалавриат)

Оценка: 8

Год защиты: 2021

Выпускная квалификационная работа посвящена решению проблемы автоматического исправления неверного написания слов в текстах IT-дискурса. Тексты, написанные компьютерными специалистами, содержат большое количество неологизмов, техницизмов и специфической лексики. Стандартные спеллчекеры показывают низкую эффективность для текстов такого типа. Целью данного исследования стало создание специализированного спеллчекера, который справляется с исправлением неверного написания слов в текстах IT-дискурса эффективнее, чем стандартный спеллчекер, предназначенный для текстов повседневного дискурса. В рамках данного исследования реализованы улучшения базового алгоритма работы спеллчекера. Во-первых, был сформирован список сленгизмов и их словоформ для дополнения словаря спеллчекера. Во-вторых, была обучена модель, отражающая семантические связи между словами IT-дискурса и словами повседневного дискурса. Она задействовалась в алгоритме спеллчекера при выборе итогового слова на замену из списка слов-кандидатов. Кроме того, были решены такие задачи как выявление основных черт IT-дискурса и определение наиболее продуктивных способов образования неологизмов IT-дискурса. В результате тестирования специализированный спеллчекер, разработанный в рамках данной курсовой, при исправлении текстов IT-дискурса показал эффективность выше, чем «Яндекс.Спеллер» на 13,3%по метрике F-mesure. Этот перевес обусловлен тем, что специализированный спеллчекер умеет исправлять ошибки в сленговых словах, а также эффективнее осуществляет выбор итогового слова из списка слов-кандидатов. Повышение качества исправленного текста доказало, что такой способ решения проблемы как создание специализированного спеллчекера под конкретную область применения имеет место и может привести к значительному улучшению работы автоматического исправления неверного написания слов. Главной перспективой созданного специализированного спеллчекера является его применение на площадке, которую программисты используют для обсуждения рабочих вопросов. Способность решать реальные задачи покажет его настоящую эффективность.

Текст работы (работа добавлена 7 июня 2021 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ