• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Методы построения векторных моделей для сетей с текстовыми атрибутами

ФИО студента: Семенова Наталья Александровна

Руководитель: Макаров Илья Андреевич

Кампус/факультет: Факультет гуманитарных наук

Программа: Компьютерная лингвистика (Магистратура)

Год защиты: 2019

Графы или сети получили широкое распространение в качестве объекта исследования в связи с распространением областей применимости данной структуры для моделирования отношений между элементами взаимодействия в таких сферах как социальные науки, лингвистика, биология, рекомендательные системы и телекоммуникации. Сети представляют собой большое количество связанной информации и являются проблемой для обработки и изучения, поэтому была предложена концепция графовых векторных представлений или графовых эмбеддингов, первоначально созданных в качестве метода понижения размерности, однако получившего распространение в различных задачах, таких как классификация и кластеризация вершин графа, предсказание ребер, визуализация графа и т.д. В этой работе мы фокусируемся на методах построения векторных репрезентаций на основе структурных признаков вершин графа и с помощью текстовых атрибутов вершин. Выдвигается гипотеза о том, что векторизация текстовых атрибутов вершин графа могут успешно использоваться в задаче предсказания ребер. Для проверки гипотезы мы собрали набор данных, состоящий из указаний о статьях, опубликованных исследователями из НИУ ВШЭ и входящими в реферативную базу данных Scopus, вместе с сопутствующей информацией (авторы, аннотация, год публикации, тип публикации, ключевые слова и т.д), на основе которого была построена сеть соавторства, в которой в качестве вершин представлены авторы, а ребра – их совместные публикации. Мы апробировали построенные структурные и текстовые эмбеддинги (векторизованные аннотации) в задаче предсказания ребер (link prediction) с помощью бинарной классификации. Использовались классификаторы RandomForest и XGBoost, а также ряд стандартных метрик (Precision, Accuracy, F1-macro, F1-micro, Logloss, ROC AUC). Эксперименты показали, что векторные репрезентации, построенные на основе текстовых атрибутов вершин графа представляют сопоставимый результат со структурными эмбеддингами, построенными с помощью метода nod2vec на обучающей и тестовой выборках. Помимо этого мы предложили новый оператор для вычисления эмбеддинга ребра по эмбеддингам вершин, основанный на метриках расстояния, тестирование которого в задаче предсказания ребер показало работоспособность метода.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ