• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Графовые представления слов, обучаемые без учителя

ФИО студента: Рябинин Максим Константинович

Руководитель: Прохоренкова Людмила Александровна

Кампус/факультет: Факультет компьютерных наук

Программа: Науки о данных (Магистратура)

Год защиты: 2021

В настоящий момент представление слов в виде элементов векторного пространства стало фактическим стандартом в большинстве задач машинного обучения. Например, к числу векторных методов обучения представлений слов относятся такие популярных подходы, как word2vec и GloVe. Хотя данные методы и относительно просты, их использование является во многом субоптимальным для языковых данных: на множестве слов можно задать иерархическую структуру в виде графа, и автоматическое выявление такой структуры может представлять существенный интерес. Адаптация векторных представлений к такой задаче часто затруднительна из-за ограничений непрерывных пространств. В данной работе рассматривается задача разработки метода обучения структурированных представлений слов, которые можно было бы использовать для создания иерархий, близких к построенным вручную. В частности, предлагается метод GraphGlove для обучения графовых представлений слов без размеченных данных. Каждое слово представляется в виде вершины во взвешенном неориентированном графе, а расстоянию между словами сопоставляется длина кратчайшего пути между их вершинами. Подход представляет собой сочетание актуальной работы по дифференцируемым графовым представлениям данных и адаптации к ней метода GloVe. Полученная модель может быть эффективно обучена с помощью стандартных алгоритмов градиентной оптимизации и поиска кратчайшего пути в графе. В работе приведены результаты экспериментов, в которых GraphGlove и предыдущие методы векторных представлений (GloVe и Poincare GloVe) были обучены на документах с сайта Wikipedia. Результаты свидетельствуют о том, что использование графовых представлений приводит к лучшим результатам на задачах оценки близости слов и поиска аналогий. Также анализ обученных представлений демонстрирует иерархический характер их структуры и её сходство с построенной вручную базой WordNet, нетривиальную геометрию полученного пространства и наличие подграфов с различной локальной топологией.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ