Классификация открытых программных проектов с использованием методов машинного обучения

ФИО студента: Кожевников Дмитрий Денисович

Руководитель: Пантюхин Дмитрий Валерьевич

Кампус/факультет: Факультет компьютерных наук

Программа: Системная и программная инженерия (Магистратура)

Оценка: 10

Год защиты: 2017

Такие агрегаторы программных проектов как GitHub, Bitbucket, GitLab, и т.д. представляют собой ценный источник информации, необходимой для изучения следующих аспектов: архитектура, жизненный цикл и эволюция программного кода, анализ языков программирования и т.п. Тем не менее, значительное количество репозиториев содержит учебные проекты, небольшие программные эксперименты, или вовсе используются в качестве хранилища данных. Использование подобных репозиториев в аналитических исследованиях может исказить полученные результаты, следовательно, необходима предварительная фильтрация исходной выборки. В данной работе предлагается методология оценки репозиториев для формального описания качеств составляющих определение инженерного программного проекта. Методология использует как метаданные репозитория, так и информацию, полученную при помощи статического анализа кода в репозитории. Автоматизация экстракции данных согласно методологии выполняется специально разработанным программным инструментом. При помощи данного инструмента были обработаны 300 репозиториев, которые затем были размечены на категории (инженерные и неинженерные) и использованы для обучения ряда классификаторов, основанных на методах машинного обучения. Наилучший классификатор на базе алгоритма "Decision Forest" показал следующие результаты: Area Under Curve = 0,958; F-Score = 0,906. Это превосходит показатели классификаторов, основанных на более традиционной методике, использующей только популярность репозитория (Area Under Curve = 0.821; F-Score = 0.782). Таким образом, данное исследование предлагает функционирующий классификатор инженерных проектов, а также определяет ряд характеристик ключевых для понимания особенностей различий между инженерными и неинженерными проектами.

Текст работы (работа добавлена 4 июня 2017 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ