• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Инструмент для сжатия предложений русского языка

ФИО студента: Кувшинова Татьяна Сергеевна

Руководитель: Александров Дмитрий Владимирович

Кампус/факультет: Факультет компьютерных наук

Программа: Системная и программная инженерия (Магистратура)

Оценка: 9

Год защиты: 2020

Сжатие предложений - задача по удалению избыточной информации из предложения при сохранении его первоначального смысла. В этой статье мы обращаемся к сжатию предложений на основе удаления для русского языка. Мы используем данные из корпуса выявления плагиата (ParaPlag) для создания корпуса сжатых предложений русского языка, содержашего более чем 3000 пар предложений. Мы выравниваем исходные предложения и их сжатия, используя алгоритм Нидлмана-Вунша, и проводим ручную оценку корпуса по читаемости и информативности. Затем мы используем двунаправленную LSTM для решения задачи сжатия предложений русского языка, что является типичным способом решения этой задачи. Мы также экспериментируем с RuBert и многоязычным Bert. В последнем случае мы используем трансферное обучение, сначала обучая модель на английских данных, что улучшает качество работы системы. Мы проводим ручную оценку по читаемости и информативности и анализ ошибок для моделей. Мы достигли f-меры 74,8 %, читаемости 3,88 и информативности 3,47 (из 5) на тестовых данных. Кроме того, мы разработали синтаксический оценщик, который может распознать некоторые из неправильных сжатий предложений, позволяя увеличить общее качество системы компресии. Мы предоставляем данные и результаты бейзлайнов для будущих исследований.

Текст работы (работа добавлена 22 мая 2020 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ