• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Методы машинного перевода для создания корпуса упрощенных текстов на русском языке

ФИО студента: Ижевская Александра Владимировна

Руководитель: Артемова Екатерина Леонидовна

Кампус/факультет: Школа иностранных языков

Программа: Иностранные языки и межкультурная коммуникация (Бакалавриат)

Оценка: 10

Год защиты: 2021

Сегодня обработка естественного языка становится все более популярной. Нейронные сети решают многие рутинные задачи, которые раньше выполнялись вручную. Машинный перевод является одним из самых перспективных направлений, в котором уже сейчас удалось достичь значительного прогресса. Методы машинного перевода также могут быть успешно применены и для задачи упрощения предложений. Актуальность этого исследования обусловлена тем, что упрощение предложений на русском языке не было достаточно изучено. Целью данной работы является изучение роли машинного перевода в обучении моделей для автоматического упрощения предложений и преодоления проблемы нехватки данных. В рамках исследования англоязычный параллельный корпус WikiLarge был автоматически переведен на русский язык и использован для обучения нейросетевой модели машинного перевода с целью ее адаптации для упрощения предложений на русском языке. Полученная в итоге модель достигает хорошего качества и показывает, что переведённые данные могут быть использованы для обучения. Особенно эффективным является их сочетание с корпусом парафраз. Это является стимулом для дальнейшего исследования задачи упрощения предложений на русском языке, включая применение существующих улучшений и разработку новых методов. Переведенный корпус WikiLarge может быть использован для изучения задачи упрощения для русского языка в целом, а также обучения и оценивания новых, более сложных моделей в будущем.

Текст работы (работа добавлена 20 мая 2021 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ