• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
ФИО студента
Название работы
Руководитель
Факультет
Программа
Оценка
Год защиты
Симагин Денис Андреевич
Зависимость качества обучения поточечных методов ранжирования от значений таргета
Науки о данных
(Магистратура)
9
2015
Задача ранжирования является одной из фундаментальных в машинном обучении. Она нашла широкое применение в таких областях, как информационный поиск, обработка естественных языков и интеллектуальный анализ данных. Данная работа, а также проведенные в ней эксперименты будут посвящены задаче ранжирования веб документов, однако полученные результаты могут быть легко перенесены в другие области применения. Существуют различные подходы к ранжированию. В частности, выделяют списочные модели и попарные модели. Однако подобные подходы требуют длительного времени обучения. Современные же поисковые системы обладают гигантским набором обучающих данных и при этом стремятся как можно чаще обновлять свою формулу ранжирования. В данной работе анализируется перспектива улучшения поточечных методов ранжирования путем изменения таргета обучения. Поточечные модели используются в практических задачах, так как не требуют длительного времени обучения и могут быть легко реализованы. Однако их недостаток в том, что они не оптимизируют напрямую метрику NDCG, которую принято использовать для оценки качества ранжирования. В частности, это связано с тем, что NDCG не дифференцируемая функция. В данном исследовании предложено и проанализировано несколько различных решений данной проблемы. Первая часть посвящена модификации квадратичной функции потерь для задачи регрессии. В ходе исследования было предложено несколько возможных модификаций, одна из которых позволяет улучшить качество NDCG. Во второй части работы рассмотрена бинарная ступенчатая модель классификации, а также несколько ее модификаций. Для версии со сглаживанием вероятностей, которая, на самом деле, является взвешиванием классификаторов, удалось добиться статистически значимого улучшения по сравнению с известной моделью McRank. Все эксперименты проводились на открытой обучающей выборке, предоставленной Microsoft. Для обучения использовался градиентный бустинг на деревьях, реализация открытой библиотеки xgboost.
Текст работы (работа добавлена 4 июня 2015г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Расширенный поиск ВКР