• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Предсказание отклика клиентов крупной телекоммуникационной компании на основе методов машинного обучения

ФИО студента: Гиздатуллин Данил Кутдусович

Руководитель: Игнатов Дмитрий Игоревич

Кампус/факультет: Отделение прикладной математики и информатики

Программа: Бакалавриат

Год защиты: 2014

<p>В данной работе рассматривается проблема предсказания поведения абонентов, а именно отключит ли абонент услугу &laquo;Безлимитная Opera&raquo;. Основная цель исследования &ndash; понять, какое сочетание методов отбора переменных и решения задачи классификации методами машинного обучения является наиболее подходящим к решению данной задачи. Задачи данной работы: построение различных моделей классификации на основе методов машинного обучения и, используя различные методы отбора атрибутов для модели, сравнение полученных моделей.</p><p>Решение задачи представляет собой полноценный процесс извлечения новых знаний из базы данных (Knowledge Discovery in Database process). Первый этап выполнения &ndash; сбор данных. Из хранилища данных компании было выгружено огромное количество данных о поведении абонентов (пользователях интересующей нас услуги) за период в три месяца. Затем задавалась целевая переменная: отключил ли абонент услугу на 4-ый месяц. Если да, то переменная принимала значение 1, иначе 0. Затем идет процесс очистки данных и подготовка их к анализу. Он включает в себя избавление от аномальных значений, балансировка данных по целевой переменной. Следующий процесс, трансформация данных, получился очень трудоемким, так как на данных, в каком виде они были первоначально, не получалось построить достаточно точную модель. Поэтому из 316 атрибутов получилось 3010, путем различных манипуляций с данными. Четвертый шаг, data mining, включал себя использование различных алгоритмов для отбора атрибутов и затем построение на этих данных моделей, основывающихся на алгоритмах машинного обучения. Пятый шаг сравнение полученных результатов и выявление наилучших моделей по разным критериям.</p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; В итоге работы были получены достаточно точные предсказательные модели. Особенно хорошо показали себя такие методы отбора признаков, как Information Gain и Relief в сочетании с методами многослойной нейронной сети и логистической регрессии. Точность предсказания в среднем по лучшим моделям составляет примерно 84,75%.</p>

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ