• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Мультилейбловая классификация научных статей: определение области знания на основе текста аннотации при помощи машинного обучения

ФИО студента: Вольф Елена Александровна

Руководитель: Соколов Евгений Андреевич

Кампус/факультет: Факультет гуманитарных наук

Программа: Фундаментальная и компьютерная лингвистика (Бакалавриат)

Год защиты: 2021

В настоящее время публикация научных работ в Интернете вместо печатных журналов становится все более популярной. Присвоение тематических меток статьям могло бы расширить и улучшить возможности поиска. Ручная разметка практически невозможна из-за большого количества статей, уже опубликованных и продолжающих публиковаться каждый день. Таким образом, для классификации необходим автоматический инструмент. Разработка алгоритма присвоения меток представляет интерес также и с исследовательской точки зрения, поскольку означает решение задачи мультилейбловой несбалансированной классификации. Данное исследование охватывает ~2 миллиона текстов аннотаций, из которых более 200 тысяч относятся к самому большому классу и только ~4 тысячи — к самому маленькому. В данной работе рассматривается несколько методов классификации текстов. Один элемент может иметь произвольное количество меток. Всего представлено 200 уникальных меток и тысячи их комбинаций. Мы решили провести бинарную классификацию для каждой метки и объединить результаты, чтобы получить финальной список. Лучшей стратегией оказалась векторизация методом TF-IDF + использование классификатора Support Vector Machine. Эта стратегия превзошла даже трансформер типа BERT (приведены возможные объяснения этих результатов). Она обеспечивает следующие метрики: доля верных ответов — 0.99, полнота — 0.61, точность — 0,62. (Средние значения для всех меток) Учитывая количество классов, несбалансированность данных и ошибки разметки, мы считаем, что получили удовлетворительные результаты. Предварительно обученные TF-IDF и SVM модели были использованы для разработки веб-сервиса, который дает возможность протестировать наш алгоритм присвоения тематических меток.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ