• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

ФИО студента
Название работы
Руководитель
Факультет
Программа
Оценка
Год защиты
Даровских Игорь Дмитриевич
Кластеризация документов по типу с использованием инвертированного индекса и попарного классификатора
Науки о данных
(Магистратура)
2019
В данной работе решается задача проектирования и реализации алгоритма онлайн кластеризации документов по типу, которая возникла как вспомогательная при разработке продукта для автоматической обработки документов и извлечению из них информации. В рамках этой задачи каждый документ представляет из себя многостраничное изображение и результат распознавания текста со страниц. Документы обрабатываются последовательно, и про каждый необходимо принять решение о классификации к существующему кластеру либо о создании нового кластера. Модель кластеризации должна разделять документы по структуре: документы с одинаковыми объектами (такими как логотип, поля для телефона, электронной почты, адреса, идентификатора документа и т.д.), расположенными на одинаковых позициях должны быть отнесены к одному кластеру.

Задача была решена с использованием попарного классификатора документов - модели машинного обучения, предсказывающей, принадлежит ли данная пара документов к одному кластеру. Также, для уменьшения числа классификаций при поступлении очередного документа был использован инвертированный индекс – структура, позволяющая быстро выбрать кластеры, наиболее соответствующие пришедшему документу. В работе приводится подробное описание способа классификации пары документов и другие детали реализации. Спроектированное решение тратит на обработку очередного документа время, не зависящее от количества ранее пришедших документов, а только от числа созданных кластеров, с помощью чего удалось добиться производительности в среднем 200 документов в секунду на 1000 кластерах.

Результатом работы является алгоритм, реализованный на языке Python, представленный в виде библиотеки. Удалось получить высокое качество работы попарного классификатора – в среднем точность 99.9%, качество работы индекса – 99.5% на топ-5 предсказаниях и точность работы модели кластеризации 97%.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Расширенный поиск ВКР