• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Разрешение лексической неоднозначности сущностей базы знаний на примере Википедии (для языков с различным объемом данных)

ФИО студента: Никишина Ирина Александровна

Руководитель: Бонч-Осмоловская Анастасия Александровна

Кампус/факультет: Факультет гуманитарных наук

Программа: Компьютерная лингвистика (Магистратура)

Год защиты: 2019

Работа посвящена разрешению лексической неоднозначности сущностей базы знаний по Википедии для языков с различным объемом данных. Корректное разрешение неоднозначности (или дизамбигуация, от англ. «disambiguation») является одним из наиболее значимых условий успешной коммуникации. Однако в области автоматической обработки текстов задача определения «смысла» сказанного и интерпретации на основе контекста решена не полностью. Автоматическая дизамбигуация текстовых представлений может значительно повысить качество смежных задач, в том числе и для языков с ограниченным количеством ресурсов. Тексты с разрешенной неоднозначностью могут впоследствии использоваться в таких задачах компьютерной лингвистики, как классификация именованных сущностей, машинный перевод, разрешение кореферентности. Методы автоматического разрешения неоднозначности разрабатываются в основном для корпусов объемом более 400 млн. токенов, эффективность подобных методов для языков с меньшими ресурсами никак не устанавливается. Таким образом, в настоящей работе представлен языконезависимой нейросетевой архитектурой для разрешения лексической неоднозначности путем связывания упоминаний в тексте с правильными значениями (сущностями, концептами) из базы знаний Википедии для русского языка и языков с меньшим объемом данных (на примере украинского, армянского, белорусского и чувашского). Кроме того, в настоящем исследовании сравниваются различные методы построения векторных представлений сущностей Википедии и токенов, используемых для обучения нейросетевой модели; демонстрируется эффективность применения векторных представлений, расположенных в одном пространстве, подтверждается важность использования графовой структуры базы знаний при обучении векторов.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ