• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Иерархический классификатор сайтов на основе обучения ансамблей

ФИО студента: Моисеев Георгий Владимирович

Руководитель: Миркин Борис Григорьевич

Кампус/факультет: Факультет компьютерных наук

Программа: Программная инженерия (Бакалавриат)

Оценка: 9

Год защиты: 2016

Вместе с развитие интернета и постоянным ростом количества информации в сети возрастает потребность в автоматической обработке и классификации этой информации. Одной из наиболее актуальных задач в этой области является задача иерархической классификации веб-сайтов. Программы, решающие данную задачу, могут иметь широкое применение в организации баз знаний, проведении маркетинговых и социологических исследований, сегментации пользователей, поиске и извлечении информации в сети. Целью данной работы является разработка программы для иерархической классификации сайтов, основанной на использовании ансамблей классификаторов. В работе рассматриваются существующие подходы к решению поставленной задачи, а также предлагаются свои методы и алгоритмы для улучшения существующих подходов. В частности, для отбора признаков предлагается метод, учитывающий структуру веб-страниц. Также предложен способ построения ансамбля классификатора, который комбинирует существующие подходы к задаче иерархической классификации. Предложенные методы сравниваются со стандартными методами в ходе нескольких экспериментов. В качестве обучающего и тестового набора данных используются данные яндекс-каталога. Работа содержит 44 страницы, 6 глав, 3 рисунка, 1 схему, 4 таблицы, 40 источников, 4 приложения. Ключевые слова: иерархическая классификация сайтов, анализ веб-контента, обучение ансамблей, машинное обучение.

Текст работы (работа добавлена 27 мая 2016 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ