• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Выявления ботов в социальных сетях: выделение характерных последовательностей в семантическом пространстве

ФИО студента: Бритков Радомир Александрович

Руководитель: Громов Василий Александрович

Кампус/факультет: Факультет компьютерных наук

Программа: Науки о данных (Магистратура)

Оценка: 7

Год защиты: 2019

В современном мире все больше людей используют интернет для принятия того или иного решения, поэтому сейчас стало наиболее важной проблема определения «честности» комментариев и отзывов, оставленных в интернете. Например вы выбираете отель и у него очень много положительных отзывов, вам хотелось бы знать какие из этих отзывов люди оставляли по собственной воле, а какие из отзывов были проплачены владельцам отеля. Сложность задачи заключается в том, что обычно нет выборки, где одни пользователи помечены как "боты", а другие как реальные люди. Поэтому приходится прибегать к методам обучения без учителя. В данной работе предпринимается попытка классифицировать пользователей на обычных людей и «ботов» (людей, который пишут отзывы и оставляют комментарии за деньги) с помощью кластеризации на основе алгоритма Уишарта. Для представлений комментариев в виде численных векторов используются две модели: Word2Vec и ELMO. Далее комментарии разбиваются на кластеры, параметры алгоритма определяются на основе различных метрик качества кластеризации таких как: индекс Данна, индекс силуэта, упрощенный индекс силуэта и SD-индекс. Все эти метрики реализованы в рамках этой дипломной работы. Для быстрой кластеризации используется собственная реализация алгоритма Уишарта, которая использует специальные структуры данных для быстрого поиска ближайших соседей. Затем на основе все тех-же индексов качества кластеризации и пороговых правил определяется какой кластер относится к ботам, а какой к обычным людям. Научная новизна работы заключается в том, что до этого почти никто не пробовал решать эту задачу с помощью алгоритмов машинного обучения без учителя. Поэтому методологию, выработанную во время этой работы можно в будущем применить для анализа поведений пользователей в таких популярных интернет ресурсах как «youtube», «vk.com» и «facebook».

Текст работы (работа добавлена 23 мая 2019 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ