• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Применение методов машинного обучения для выявления мошенничества в общем страховании

ФИО студента: Чакар Антон Евгеньевич

Руководитель: Полякова Марина Васильевна

Кампус/факультет: Факультет экономических наук

Программа: Статистическое моделирование и актуарные расчеты (Магистратура)

Год защиты: 2022

Актуальность работы продиктована потребностью страхового рынка в автоматизированных системах распознавания мошенников по статическим паттернам их поведения. Несмотря на то, что данная задача далеко не нова, с каждым годом появляется всё больше алгоритмов и методов, которые могут быть адаптированы под неё с целью качественного улучшения результативности прогнозов по отношению к уже устоявшимся подходам. Практическая ценность данной работы заключается в представленном методе обучения на несбалансированных данных с использованием ансамблевых моделей. Объект исследования – параметрические данные об инцидентах в автостраховании с индикаторной переменной мошенничества. Предмет исследования – оценка точности методов машинного обучения относительно эконометрических моделей в задаче классификации страховых случаев на рынке автострахования. Цель работы – выявление наиболее подходящего для обучения на несбалансированных данных метода машинного обучения, его реализация и сравнение с эконометрическими моделями в задаче классификации. В данной работе рассмотрены существующие подходы к выявлению мошенников на рынке автострахования, описана специфика данного класса задач и существующие проблемы при анализе подобного рода данных. Проанализированы основные факторы, влияющие на вероятность индивида оказаться мошенником. Описаны методы машинного обучения для решения задачи классификации и метрики оценки качества их работы. Произведен подбор оптимальных параметров для используемых моделей: логистической регрессии, многослойного перцептрона, решающих деревьев, случайного леса и категориального бустинга. На датасете «Альфа» все упомянутые модели использовались в ансамблях, чтобы преодолеть проблему несбалансированности данных и достичь лучших результатов без потери потенциально значимой информации. Тестовые выборки из обоих датасетов были взяты сбалансированными: мошенников и честных страхователей в них было поровну. Лучшие конфигурации были сравнены между собой и выявлена наиболее точная по показателю F-меры модель – случайный лес. Тем не менее, нейронные сети, логистическая регрессия и категориальный бустинг продемонстрировали сопоставимые результаты. При этом стоит учитывать, что для обучения нейронных сетей данные датасеты является небольшими, поэтому потенциал этого класса методов может раскрыться при анализе более крупных наборов данных. Нетривиальным результатом данной работы можно считать то, что благодаря предложенному методу обучения на несбалансированном наборе данных ансамбли моделей продемонстрировали достаточно высокую точность прогнозов и имели лишь относительно небольшое количество ошибок второго рода, хотя изначальный набор данных имел всего 6% мошенников (обученным на таких выборках моделям присуща тенденция чаще классифицировать мошенников как добросовестных). Уже упоминалось, что в задаче распознавания мошенников такого рода результаты особенно ценны, так как для страховой компании ложное срабатывание модели стоит гораздо меньше, чем ложный пропуск: выплата мошеннику в разы больше затрат на дополнительное разбирательство с честным страхователем.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ