• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Сравнительный анализ алгоритмов кластеризации поисковых запросов на основе дополнительной информации

ФИО студента: Чуев Иван Сергеевич

Руководитель: Дегтярев Константин Юрьевич

Кампус/факультет: Факультет компьютерных наук

Программа: Программная инженерия (Бакалавриат)

Год защиты: 2020

В аналитике часто приходится иметь дело с огромным количеством данных. Поскольку анализ такого количества объектов достаточно трудоемок, довольно часто используется кластеризация для формирования осмысленных групп объектов и дальнейшего анализа получившихся кластеров как единого целого. Она имеет применение во многих областях науки, включая биологию, медицину, всемирную сеть (WWW), социальные и компьютерные науки. Наиболее распространенным приложением кластеризации является определение внутренних связей, зависимостей, сходства или различий между объектами. Довольно часто кластеризация используется в анализе данных для изучения распределения характеристик объектов. Для исследования характеристик объектов аналитик формирует их в группы посредством различных методов кластеризации, далее изучает зависимости наблюдаемых характеристик относительно полученных групп. На данный момент сформировался ряд популярных методов кластеризации, которые широко используются для анализа данных, например, K-Means, Mean-Shift, DBSCAN и другие. Но не редки такие случаи, когда данные методы кластеризации не дают должного результата: наблюдаемые характеристики объектов в кластерах распределены случайно, и очень сложно сделать какие-либо выводы об характеристиках объектов, исследуя полученные группы. В рамках данного исследования рассматриваются алгоритмы, использующие наблюдаемую характеристику в качестве дополнительной информации в алгоритме кластеризации так, что результирующие кластеры описывали данную характеристику как можно более подробно. Таким образом наблюдаемая характеристика объектов, принадлежащих одному кластеру, имеет близкие значения, что облегчает процесс выявления зависимостей наблюдаемой характеристики от групп объектов. Ключевые слова: Кластеризация, Обучение с частичным привлечением учителя, Дополнительная информация, Попарные ограничения, Кластеризация на основе дополнительной информации

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ