• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Предиктивный ввод текста для агглютинативных и полисинтетических языков

ФИО студента: Косяк Сергей Николаевич

Руководитель: Таерз Францис Мортон

Кампус/факультет: Факультет гуманитарных наук

Программа: Компьютерная лингвистика (Магистратура)

Год защиты: 2021

В этой работе представлены эксперименты в области морфологического моделирования и предсказания. Рассматриваются задачи сегментации, предсказания следующего токена, а также предиктивного ввода текста для двух низкоресурсных коренных языков, киче и чукотского. В рамках решения задачи сегментации рассматриваются различные системы — 4 из них обучаются без учителя, 2 с учителем, выбирается лучшая система морфологической сегментации. Она, наряду с системами статистической сегментации, используется для создания датасетов для языкового моделирования. Обучаются языковые модели разных типов — на датасете от одной сегментирующей модели, на датасетах от двух разных сегментирующих моделей, а также зыковые модели, обученные на датасетах одной сегментирующей модели и дообученные на данных от другой. Для оценки языковых моделей вычисляется пословная и посимвольная перплексия, лучшей моделью оказывается обученная на данных, сегментированных моделью Wordpiece, а затем дообученная на морфологически сегментированных данных. Производительность языковых моделей проверяется на задаче предсказания следующего токена, для чего используется отложенная выборка, не используемая во время обучения. Лучшей оказывается модель, обученная на данных, сегментированных моделью Unigram. Также производительность проверяется на задаче предиктивного ввода текста, для чего используется вручную размеченные данные. Выясняется, что все модели, для обучения которых был задействованы морфологически сегментированные данные, хорошо справляются с этой задачей. Высказывается предположение, что использование морфологической сегментации при обучении языковых моделей позволит улучшить опыт конечных пользователей при работе с предиктивным вводом. Планируется проверить это предположение путем проведения тестирования на пользователях, а также обучить другие модели и экспериментировать на других языках.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ