• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Использование статистической, тематической и синтаксической информации для автоматического ивлечения терминов

ФИО студента: Шеянова Мария Викторовна

Руководитель: Воронцов Константин Вячеславович

Кампус/факультет: Факультет гуманитарных наук

Программа: Компьютерная лингвистика (Магистратура)

Год защиты: 2019

Автоматическое Извлечение Терминов — раздел Автоматической Обработки Естественного Языка (Natural Language Processing, NLP), который направлен на извлечение специфичных для предметной области слов и словосочетаний из академических и научно-популярных документов. Извлечённые термины часто используются на этапе предобработки многих других задач NLP, например, в разработке онтологий, создании глоссариев, суммаризации текстов и визуализации данных. Данная работа объединяет подходы к извлечению терминологии, основанные на извлечении фраз, статистических метриках, тематическом моделировании и синтаксическом анализе. В то время как термины, состоящие из одного слова, не представляют большой сложности для извлечения, термины-фразы до сих пор представляют проблему для автоматического извлечения терминологии. Данное исследование уделяет особое внимание терминам, состоящим из нескольких слов, что осуществляется за счёт использования технологий, предназначенных для работы с фразами, а именно, алгоритма ToPMine для извлечения фраз, C-Value для ранжирования терминов и синтаксических правил, которые применяются к фразам. Система оценивается на открытом корпусе ACL RD-TEC 2.0.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ