• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
ФИО студента
Название работы
Руководитель
Факультет
Программа
Оценка
Год защиты
Богомолов Юрий Иванович
Обработка поисковых цепочек для построения документных языковых моделей
Науки о данных
(Магистратура)
10
2015
Данная работа посвящена рассмотрению различных подходов к решению задачи ранжирования - сортировке документов по релевантности (степени соответствия документов запросу). Задача ранжирования стала особенно актуальна в связи с ростом популярности поисковых систем. Сложность задачи состоит в том, что мы не можем формально описать понятие релевантности, а тем более посчитать ее истинное значение. Именно по этой причине широкое распространение получили методы решения задачи ранжирования с помощью машинного обучения. В работе рассмотрены основные способы сведения исходной задачи к различ- ным задачам машинного обучения. Произведено сравнение разных подходов с точки зрения качества итоговой модели, сложности построения обучающей выборки и устойчивости к шуму. Решение рассматривалось в общем виде: документ описывается вектором признаков, которые характеризуют документ с разных сторон. Вторая часть работы описывает различные подходы к выбору признаков, характеризующих документ. Рассмотрены признаки, описывающие текстовое содержание документа, авторитетность документа на основании ссылочного веб-графа и популярность документа, которую мы можем оценить на основании посещения документа пользователями. Приведен сравнительный анализ различных способов учета пользовательских данных. Рассмотрен способ, основанный на построении пользовательских цепочек и использующий эвристическую и вероятностную поисковые модели. Предложено обобщение метода поисковых цепочек, основанное на построении весовой функции, которая повысит точность извлекаемой информации. С помощью распределенной модели вычислений MapReduce были обработаны миллиарды действий пользователей, выделены поисковые цепочки. На основании выделенных цепочек были построены эвристическая и вероятностная поисковые модели, проведено их сравнение для разных значений параметров.
Текст работы (работа добавлена 4 июня 2015г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Расширенный поиск ВКР