• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Мульти-агентное обучение с подкреплением для управления цепочками поставок

ФИО студента: Орлов Александр Юрьевич

Руководитель: Масютин Алексей Александрович

Кампус/факультет: Факультет компьютерных наук

Программа: Финансовые технологии и анализ данных (Магистратура)

Оценка: 8

Год защиты: 2019

Работа представляет исследование мульти-агентного обучения с подкреплением для управления цепочками поставок. Во всем мире производство и доставка товаров компаниями до конечного потребителя требует достаточно протяженных цепочек поставок. Известны случаи, когда колебания спроса в цепочках поставок из-за не оптимального поведения людей, находящихся в середине цепочки - дистрибьюторов и оптовиков - приводило к крупным финансовым потерям (в частности, для компаний JDS Uniphase, Cisco). Поэтому интересно создание компьютеризированных агентов, которым могут оптимально управлять цепочками поставок, избегая человеческих ошибок. На примере модельной системы в работе рассматривалась Пивная Игра (англ. Beer Game) - линейная цепочка поставок товаров от производителя к потребителю из 4 игроков. В данной игре игроки наблюдают информацию о только своей позиции поставки товара и не могут обмениваться информацией. Каждый ход игрокам начисляется стоимость хранения товаров, пропорциональная количеству остатку товаров на их складах. Задача состоит в том, что всем игрокам вместе получить уменьшить суммарную стоимость хранения запасов товара за всю игру, не обмениваясь информацией между собой. Для создания агентов использовалось обучение с подкреплением, а именно алгоритм Deep Q-learning, DQN. Известно, что мульти-агентное обучение с подкреплением имеет ряд специфических сложностей с обучением по сравнению с обучением одного агента в системе, таких как «проклятие размерности» и проблема присвоения награды. Подход QMIX, созданный в 2018 году учеными из Оксфорда позволяет обучать мульти-агентные системы, состоящие из DQN агентов. Важным свойствами QMIX является возможность использование дополнительной информации на этапе обучения, не доступной индивидуальному агенту, например, полного состояния среды, а также тот факт, что на этапе использования обученные агенты используют только доступную им информацию. QMIX ранее не использовался в задачах цепочек поставок, поэтому такое применение представляет научный интерес. В ходе данной работы рассматривалась задача изучения возможности использования подхода QMIX для мульти-агентного обучения в Beer Game. Было проведено сравнение с базовыми агентами, известными в литературе. Полученные агенты в компьютерной симуляции Beer Game играли лучше и имели более стабильное поведение, чем агенты имитирующее поведение человека.

Текст работы (работа добавлена 9 июня 2019 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ