Автоматическое определение количества кластеров в задаче рубрикации текстовых документов

ФИО студента: Баженова Олеся Алексеевна

Руководитель: Карпов Николай Вячеславович

Кампус/факультет: Факультет информатики, математики и компьютерных наук (Нижний Новгород)

Программа: Магистратура

Год защиты: 2014

Целью настоящей работы является исследование применения подходов к кластеризации с автоматическим определением количества кластеров к задаче рубрикации текстовых документов в условиях отсутствия информации о рубриках и их количестве.Научная новизна работы обусловлена ее спецификой. Данное исследование является первой работой, в которой известные методы кластеризации с автоматическим определением числа кластеров без учета лингвистических особенностей применяются к задаче кластеризации коллекции текстовых документов. Аналогичная проблема уже решалась в работе М. Киселева «Метод кластеризации текстов, основанный на попарной близости термов, характеризующих тексты, и его сравнение с метрическими методами кластеризации», в которой был предложен метод формирования автотезауруса на основе понятия близости термов для решения задачи кластеризации текстовых документов.Описанный в работе метод кластеризации был протестирован на массиве новостных сообщений различной тематики с более 500 источников. Источниками являлись официальные сайты туристических агентств, туроператоров, театров и других компаний. Выбранная специфика новостей обусловлена тем, что, в отличие от стандартных новостей информационных агентств, в них сложно предугадать структуру будущего рубрикатора, опираясь на рубрикаторы источников.В ходе исследования было установлено, что автоматическая предварительная кластеризация подойдет в том случае, если в коллекции представлены документы близкой тематики, либо каждая потенциальная рубрика имеет достаточное количество «представителей» в обучающей выборке. Автоматическая кластеризация с помощью x-means может применяться как вспомогательный этап, после которого у эксперта будет предварительно кластеризованная выборка документов. Это позволит скорректировать рубрики в соответствии с их значимостью в рамках конкретных задач.Безусловно, нельзя полностью полагаться на машинное обучение при составлении рубрик, поскольку при этом не учитывается ни специфика задачи, ни приоритеты тематик. Однако, как показали эксперименты, применение xmeans в качестве помощи при подготовке обучающего корпуса является неплохим решением в условиях неопределенности рубрик. Безусловным преимуществом такого подхода перед полностью ручным рубрицированием обучающей выборки является то, что при ручной обработке необходимо вначале составить классификатор (рубрикатор), что зачастую требует вначале полного ознакомления со всеми документами, а затем их систематизации по рубрикам. Это довольно непросто, особенно при достаточно больших коллекциях текстов.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ