• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Анализ социальных сетей методами разработки данных и машинного обучения

ФИО студента: Попов Николай Васильевич

Руководитель: Игнатов Дмитрий Игоревич

Кампус/факультет: Отделение прикладной математики и информатики

Программа: Бакалавриат

Год защиты: 2014

<p>Целью данной работы было решить задачу предсказания количества &laquo;лайков&raquo; к публикациям пользователей в социальной сети, анализируя не только его содержание, но и потенциальную аудиторию с применением методов разработки данных и машинного обучения.</p><p>В качестве данных использовались данные социальной сети &laquo;Одноклассники&raquo;, предоставленные конкурсом SNA Hackathon (Санкт-Петербург, Россия, апрель 2014г. http://sh2014.org/). Первоначально задача решалась с помощью линейной регрессии. Были рассмотрены различные переменные регрессии, такие как наличие изображений у &laquo;поста&raquo;, ссылок, отношение букв (верхний регистр), принадлежность специально составленному для этой задачи частотному словарю, день недели, среднее количество &laquo;лайков&raquo; в группе и др., из которых были выбраны дающие наиболее точный результат. После чего к ним были добавлен еще одна переменная &ndash; принадлежность к кластеру. Все эксперименты проводились в среде &laquo;Ipython Notebook&raquo;.</p><p>Разбиение на кластеры производилось двумя методами, основанными на модулярности: &laquo;Жадный алгоритм максимизации модулярности&raquo; и &laquo;Алгоритм последовательного удаления &laquo;нагруженных&raquo; дуг&raquo;. Оба этих метода представлены в программном пакете для анализа социальных сетей &laquo;Pajek&raquo; с помощью которого и производилась кластеризация.</p><p>Результатами работы можно считать решенную задачу конкурса SNA Hackaton получено решение предсказывающие &laquo;лайки&raquo; с точностью 0.231, не сильно уступающую лидеру конкурса, который набрал 0.303 (0.286 на 2м месте), построенную модель линейной регрессии и выбранные переменные для нее. Самым выдающимся результатом является успешное использование методов кластеризации в предсказательной задаче такого типа. Так же были выдвинуты гипотезы каким образом можно улучшить полученные результаты и выбраны направление дальнейших исследований.</p>

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ