• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Модели на данных кредитного бюро

ФИО студента: Поляков Александр Сергеевич

Руководитель: Саакян Сергей Арамович

Кампус/факультет: Факультет компьютерных наук

Программа: Финансовые технологии и анализ данных (Магистратура)

Оценка: 8

Год защиты: 2021

В данной выпускной квалификационной работе рассматривается моделирование с помощью альтернативных источников данных. Поднимается вопрос, как данные кредитного бюро могут быть полезны бизнесу клиента. Обсуждается бизнес-постановка задачи машинного обучения, декомпозиция на необходимые шаги. Приведены примеры признаков для машинного обучения, оптимизируемые показатели и метрики. Показано, какой алгоритм машинного обучения лучше всего справляется с задачей. Описан пайплайн работ, решенные проблемы, проверка качества модели. Описана польза внедрения данной модели для бизнеса. В частности, подробно описано, как градиентный бустинг решает задачу определения целевых клиентов, посетивших онлайн-форму подачи заявки на кредит. В работе приводятся последовательно все шаги решения данной задачи: от постановки до внедрения. В данной задаче есть несколько проблем, таких как: как матчить клиентов по неполному набору идентификаторов, как повысить процент найденных данных с помощью эвристик и подтягивания дополнительной информации, как не перестараться с матчингом и не начать ухудшать качество, какие признаки лучше всего подходят для задачи, как их собирать, как отбирать. Показано, как выбрать лучшую модель и при чем тут статистика. Описано, как следует валидировать модели, чтобы не допустить просадки качества, на какие метрики следует смотреть. После этого описывается пилот проверки полезности модели, в чем отличие оффлайн и онлайн метрик. Цель работы – продемонстрировать пример решенной задачи на реальных табличных данных, сложности сбора данных и построения процесса. Показать плюсы и минусы известных метрик, таких как ROC AUC, плюсы и минусы известных моделей, таких как градиентный бустинг. В работе используется следующий стек технологий: Python, SQL, Docker, Pandas, Scikit-Learn, LightGBM. Описано, почему была выбрана именно эта реализация градиентного бустинга.

Текст работы (работа добавлена 5 апреля 2021 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ