• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Модели глубокого обучения для морфемного деления

ФИО студента: Доркин Алексей Викторович

Руководитель: Толдова Светлана Юрьевна

Кампус/факультет: Факультет гуманитарных наук

Программа: Компьютерная лингвистика (Магистратура)

Оценка: 8

Год защиты: 2021

Данная магистерская диссертация посвящена проблеме морфемной сегментации с точки зрения токенизации на основе подслов. Современные подходы к токенизации широко используют алгоритмы обучения без учителя для разделения слов на более мелкие единицы, что позволяет значительно уменьшить размер словаря по сравнению с токенизацией на основе слов. Эти алгоритмы в определенном смысле неявно моделируют морфологическую систему языка, и это оказывается чрезвычайно полезным для последующих задач. Однако полученные подслова лишь частично совпадают с фактическими морфемами. Таким образом, следующим логическим шагом является лингвистически мотивированная токенизация на основе подслов. Такая токенизация подразумевает использование алгоритмов обучения с учителем, которые, в свою очередь, требуют существенного количества размеченных данных, которые достаточно трудно получить для данной задачи. Соответственно, мы предлагаем новый метод генерации размеченных данных для произвольных словоформ в русском языке с использованием Русского Викисловаря. Кроме того, мы проводим эксперименты с несколькими моделями глубокого обучения в расширяемой и воспроизводимой среде, чтобы оценить их эффективность на задаче морфемной сегментации. Мы представляем код для генерации данных и экспериментов, а также сами данные в репозиториях с открытым исходным кодом.

Текст работы (работа добавлена 1 июня 2021 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ