• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Методы агрегации эмбеддингов на основе метрик сходства текстовых репрезентаций

ФИО студента: Августёнок Алина Алексеевна

Руководитель: Савченко Андрей Владимирович

Кампус/факультет: Факультет компьютерных наук

Программа: Прикладная математика и информатика (Бакалавриат)

Год защиты: 2025

Задача получения эмбеддингов с помощью моделей семейства BERT является важной проблемой в работе с базовыми моделями, так как позволяет использовать предпосчитанные эмбеддинги в последующих задачах без дополнительных затрат на дообучение. Наиболее простым и популярным методом извлечения эмбеддингов является усреднение скрытых представлений последнего слоя, хотя данный подход далеко не всегда приводит к оптимальному качеству. Однако существуют и другие алгоритмы, нацеленные на построение комбинации векторных представлений с нескольких слоев. Тем не менее, они никак не учитывают информацию о схожести эмбеддингов, которая потенциально может улучшить качество итоговых представлений. В данной работе мы ставим цель выявить способ построения оптимальной комбинации эмбеддингов, учитывая метрики сходства текстовых репрезентаций. С этой целью мы рассматриваем некоторые метрики сходства эмбеддингов, а также различные методы агрегации векторных представлений. Далее мы проводим эксперименты с агрегацией подмножества из небольшого количества слоев моделей семейства BERT, позднее переходя к поиску оптимальных весов для всех слоев моделей на основе метрик сходства текстовых репрезентаций.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ