• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Практическое развертывание конвейера машинного обучения: анализ настроений в обзорах косметических продуктов Sephora

ФИО студента: Павлова Ольга Валерьевна

Руководитель: Максимовская Анастасия Максимовна

Кампус/факультет: Факультет компьютерных наук

Программа: Магистр по наукам о данных (Магистратура)

Год защиты: 2024

Представлена разработка конвейера машинного обучения в аспекте анализа настроений в отзывах на косметические продукты Sephora. Конвейер включил в себя три основных итеративных этапа: сбор и анализ данных, машинное обучение моделей и их развертывание в веб-сервисе с использованием облачных технологий. Этап сбора данных включил автоматическую коллекцию больших наборов данных и их хранения (набор данных включает в себя около 4 миллионов текстовых отзывов с дополнительной информацией). На основе статистического анализа распределения целевой переменной по разным типам отзывов и категорий продуктов были сформированы 8 наборов данных для обучения, валидации и тестирования. На этапе обучения модели было проведено 17 экспериментов с использованием различных алгоритмов машинного и глубокого обучения. Модель DistilBERT была определена как наиболее эффективная, обеспечивающая баланс между техническими ограничениями и точностью прогнозирования. Модель Naïve Bayes служила в качестве легковесной модели, без акцента на высокой точности. Использование заголовка отзыва как источника обобщенного отношения пользователя к продукции совместно с текстом отзыва, как стимулированных, так и не стимулированных отзывов значительно повысило точность всех моделей. Набор данных из категории «Парфюмерия» оказался наиболее трудным для обучения моделей. Этап развертывания включал в себя создание архитектуры веб-сервиса с серверной частью и внешним интерфейсом как для основного, так и для резервного приложений. Модель DistilBERT используется в основном приложении для прогнозирования, в резервном приложении применяется модель Naïve Bayes. В разработке приложений была использована оптимизированная методика создания образов Docker. Непрерывная интеграция и непрерывная доставка (CI/CD) реализована в GitLab. Приложения были развернуты в кластере Kubernetes с помощью облачной технологии, а также был использован балансировщик нагрузки для обработки ошибок путем применения резервного приложения.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ