• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

YandexGPT в применении к GraphRAG: формирование графов и семантический анализ графовых сообществ

ФИО студента: Аванесян Алина Армавиковна

Руководитель: Паринов Андрей Андреевич

Кампус/факультет: Факультет гуманитарных наук

Программа: Фундаментальная и компьютерная лингвистика (Бакалавриат)

Год защиты: 2025

Графы знаний являются мощными инструментами для организации документов и извлечения информации из неструктурированных данных. Хотя метод GraphRAG, сочетающий RAG-пайплайн и графовые рассуждения, демонстрирует всё большую эффективность в задачах генерации ответов на вопросы, построения рекомендательных систем и других прикладных задачах обработки языковых данных, его применимость к русскоязычным датасетам остаётся относительно малоизученной. Данное исследование сосредоточено на адаптации фреймворка GraphRAG для русского языка путем интеграции в алгоритм GraphRAG проприетарной модели YandexGPT – одной из самых продвинутых крупных языковых моделей, обученных на русскоязычных корпусах. Ключевым вкладом данной работы является переработка кода библиотеки GraphRAG, созданной Microsoft, для поддержки подключения к моделям через API. (оригинальный код построен вокруг OpenAI-модулей, что затрудняет внедрение пользовательских классов). Кроме того, мы представляем интерактивный веб-интерфейс, который позволяет осуществлять глобальный семантический поиск по построенным графам знаний. Для оценки точности построенных графов мы также проводим сравнительные эксперименты на русскоязычных данных, – а именно на транскриптах подкастов и новостных статьях, – с моделями с открытым исходным кодом, такими как Qwen, DeepSeek и др., которые изначально обучены на английских датасетах. Мы ожидаем, что модели линейки YandexGPT, более точно настроенные на русский язык, будут генерировать более информативные графы. Помимо методов оценивания, предложенных в оригинальной статье, в ходе экспериментов используются и новые подходы, позволяющие оценивать построенные пайплайны с учетом контекста документов. В качестве метрик оцениваются семантические аспекты ответов GraphRAGа: полнота, прямо, разнообразие и помощь в принятии решений. Ключевые слова: GraphRAG, YandexGPT, графы знаний, русскоязычные данные, семантические отношения, обработка естественного языка, большие языковые модели

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ