• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Версия для слабовидящихЛичный кабинет сотрудника ВШЭПоискМеню

Социально-политические процессы в Интернете: структура и содержание социальных взаимодействий

Приоритетные направления развития: социология, инженерные науки
2014

Данное исследование состоит из трех подпроектов, каждый из которых имеет свой предмет, объект и другие элементы НИР.

Предметом исследования первого подпроекта («Мэппинг этнических аттитюдов в российском сегменте Livejournal с использованием усовершенствованных методов тематического моделирования») являются представления об этнических группах, распространенные в русскоязычных блогах, а также нестабильность алгоритма тематического моделирования, используемого для выявления такой тематики. Предметом второго подпроекта («Структура сообществ в социальных сетях») является совокупность сетевых, структурных и содержательных свойств ряда типов групп в социальной сети ВКонтакте, в том числе: профессиональных групп программистов, групп наблюдателей Санкт-Петербурга и антимедицинских групп. Предметом третьего подпроекта («Онлайновые рекомендательные системы: анализ публикаций и новые разработки») являются рекомендательные системы для ситуации разреженных наборов данных и современные исследования в области рекомендательных систем.

Цель исследования. Цель первого подпроекта: мэппинг аттитюдов русскоязычных пользователей блог-платформы Livejournal по отношению к этническим группам; оптимизация стабильности тематического моделирования. Цель второго подпроекта: выявление связи сетевой структуры группы сообществ ВКонтакте с социально-демографическими характеристиками членов и другими характеристиками членов и групп. Цель третьего подпроекта: разработка новых методов и алгоритмов для рекомендательных систем, а также анализ современных публикаций в области рекомендательных систем.

Эмпирическая база исследования. Эмпирическую базу первого подпроекта состоит составляют: (а) 363579 постов топ-2000 пользователей блог-платформы Живой Журнал по рейтингу социального капитала за 11 недель с 4 февраля по 19 мая 2013 года, 990 из них для ручного анализа; (б) рабочий датасет размером в 101481 постов, на котором тестировались регуляризаторы алгоритма тематического моделирования латентного размещения Дирихле. Эмпирическая база второго подпроекта состоит из следующих частей: (а) 11 группы программистов ВКонтакте численностью более 10 000 человек,  в т.ч. одна группа, взятая для проведения кейс стади, размером 15451 пользователей; (б) 17 районных и одна общегородская группа наблюдателей Санкт-Петербурга, наблюдавшиеся в 16 временных точках, совокупной численностью более 13 тысяч участников; (в) эго-сеть  группы СПИД-диссидентов ВКонтакте, составленная на основе гиперссылок, с размерностью 2.0, состоящая из 11 онлайн-групп. Эмпирическая база третьего подпроекта состоит из следующих частей: (а) датасет системы онлайн-радиобродкастинга FMhost из 4266 пользователей, 3618 тегов, 2209 радиостанций и 4165 треков; (б) автоматически сгенерированный массив статей о рекомендательных системах, созданный из списка из 18 топ-конференций, где публикуются статьи по этой тематике.

Результаты исследования

Результаты первого подпроекта. Установлено, что наиболее интенсивно в блогах обсуждаются два типа этнических групп: в первую очередь удаленные «геополитические враги» (напр., американцы) и во вторую очередь близкие, но социально-проблемные группы (напр., таджики). В трех четвертях текстов этнические группы обсуждаются либо в политическом, либо в культурно-ритуальном контексте, с большим перевесом в сторону первого. При этом с большой вероятностью одни нации обсуждаются в одних типах контекста, другие – в других. Выявлено, что пятерку самых негативно описываемых составляют кавказец, таджик, дагестанец, американец и африканец/негр; среди наиболее «ущербных» групп оказались таджик и чеченец; среди шести наций с индексом опасности выше 1 – дагестанец, кавказец, американец, британец; среди шести наций с индексом чуждости выше 1 – дагестанец, американец, чеченец, немец, британец. Установлено, что уже на момент исследования, то есть зимой – ранней весной 2013 года, в обсуждении в блогах присутствовали две «украинских про-/антибандеровских темы», в которых обозначились все болевые точки будущего конфликта.

В ходе исследования стабильности трех алгоритмов тематического моделирования определенно, что предлагаемый здесь гранулированный метод сэмплирования приводит к наибольшему, по сравнению с другими методами, увеличению числа стабильных тем до 138 из 200 против 84 и 135, в соответствие с нормализованной мерой Кульбака-Лейблера,  и дает существенно большую величину коэффициента Жаккара (0,6 против 0,3).

Результаты второго подпроекта. Выявлено, что районные группы наблюдателей Санкт-Петербурга являются не самостоятальными независимо возникшими движениями, а ячейками городского движения, аффилиированными с ним в разной степени. Пик активности групп наблюдателей приходится на электоральный цикл 2011-2012 годов. Однако те группы, которые изначально были «живыми», не умирают, а стабилизируются. Установлено, что модераторы, то есть лидеры сообществ, генерируют повестку дня, а сообщество выражает мнения по ней и одобрение / солидарность. Размер групп связан с количеством постов от имени сообщества, что говорит о существенной роли лидерства для успешности группы. Оффлайновые лидеры движения наблюдателей, названные информантами, хорошо предсказываются на основании их онлайновых характеристик, в частности, на основании их центральности в общей сети дружбы, количества районных групп, к которым они принадлежат, количества полученной обратной связи.

Выявлено, что никакие типы связей, устанавливаемые в исследованном профессиональном сообществе программистов, не устанавливаются на основе их географического положения, то есть подтверждается гипотеза о существовании гео-независимых групп. При изучении эгосети сообщества СПИД-диссидентов не обнаружено достаточных доказательств того, что она отражает единое антимедицинское движение.

Результаты третьего подпроекта. Разработаны три новых рекомендательных алгоритма для систем с тегами, в частности TagLDA; проведены эксперименты, подтверждающие, что для датасетов малого размера разработанные алгоритмы показывают значительно лучшие результаты, чем стандартные алгоритмы. Создан обзор основных результатов и трендов в области рекомендательных систем на основе современных публикаций в этой области. Разработано ПО, реализующее обучение модели TagLDA.

Рекомендации по внедрению или итоги внедрения результатов НИР. Все три исследованные в первом подпроекте математические модели реализованы в виде ПО, внедренного во многие проекты лабортаории.  Результаты НИР в области разработки новых рекомендательных алгоритмов и систем могут быть внедрены в любой рекомендательной системе небольшого размера. Методики НИР в области анализа этнических аттитюдов могут использоваться для анализа аттитюдов и тематического мэппинга онлайн-дискурса в целом и служить основной для выработки государственной политики в области соответствующих проблем. 

Публикации по проекту:


Bodrunova S., Nikolenko S. I., Koltsova O., Koltsov S., Шиморина А. Interval Semi-Supervised LDA: Classifying Needles in a Haystack, in: Proceedings of the 12th Mexican International Conference on Artificial Intelligence (MICAI 2013). Berlin : Springer Verlag, 2013. С. 265-274. 
Ignatov D. I., Nikolenko S. I., Abaev T., Konstantinova N. Online Recommender System for Radio Station Hosting: Experimental Results Revisited, in: Proceedings of The 2014 IEEE/WIC/ACM International Joint Conference on Web Intelligence and Intelligent Agent Technology, WI-IAT 2014, 11-14 August 2014 Warsaw, Poland. Los Alamitos : IEEE Computer Society Conference Publishing Services (CPS), 2014. С. 229-236. 
Кольцов С. Н., Кольцова Е. Ю., Митрофанова О. А., Шиморина А. Интерпретация семантических связей в текстах русскоязычного сегмента Живого Журнала на основе тематической модели LDA, in: Технологии информационного общества в науке, образовании и культуре. Сборник научных статей. Труды XVII Всероссийской объединенной конференции «Интернет и современное общество» Санкт-Петербург, 19 – 20 ноября 2014 г.. Санкт-Петербург : Университет ИТМО, 2014. С. 135-142. 
Видясова Л. А., Кольцов С. Н., Чугунов А. В. Формирование «повестки дня» в сфере электронного правительства: результаты контент-анализа новостных сообщений, in: Технологии информационного общества в науке, образовании и культуре. Сборник научных статей. Труды XVII Всероссийской объединенной конференции «Интернет и современное общество» Санкт-Петербург, 19 – 20 ноября 2014 г.. Санкт-Петербург : Университет ИТМО, 2014. С. 124-128. 
Алексеева С. В., Кольцова Е. Ю., Кольцов С. Н. Общественное мнение онлайн: сравнение структуры и тематики постов «обычных» и «популярных» блогеров Живого Журнала, in: Supplementary Proceedings of the 3rd International Conference on Analysis of Images, Social Networks and Texts (AIST 2014). Екатеринбург : CEUR Workshop Proceedings, 2014. С. 177-181. 
Koltsov S., Koltsova O., Nikolenko S. I. Latent Dirichlet Allocation: Stability and Applications to Studies of User-Generated content, in: Proceedings of WebSci '14 ACM Web Science Conference, Bloomington, IN, USA — June 23 - 26, 2014. New York : ACM, 2014. С. 161-165. 
Koltsova, O., Koltcov, S., Alexeeva, S. Do ordinary bloggers really differ from blog celebrities?, in: Proceedings of WebSci '14 ACM Web Science Conference, Bloomington, IN, USA — June 23 - 26, 2014. New York : ACM, 2014. С. 166-170. 
Митрофанова О. А., Шиморина А. С. Моделирование семантических связей в текстах социальных сетей с помощью алгоритма LDA (на материале русскоязычного сегмента Живого Журнала), in: Структурная и прикладная лингвистика. Санкт-Петербург : Издательство Санкт-Петербургского государственного университета, 2014. 
Nikolenko S. I., Koltsov S., Koltsova O. Measuring Topic Quality in Latent Dirichlet Allocation, in: Proceedings of the Philosophy, Mathematics, Linguistics: Aspects of Interaction 2014 Conference. St. Petersburg : Международный Математический Институт им. Эйлера, 2014. С. 149-157. 
Структурная и прикладная лингвистика. Санкт-Петербург : Издательство Санкт-Петербургского государственного университета, 2014. 
Ignatov D. I., Nikolenko S. I., Abaev T., Poelmans J. Improving Quality Of Service For Radio Station Hosting: An Online Recommender System Based On Information Fusion / Высшая школа экономики. Series MAN "Management". 2014. No. 31. 
Koltsov S., Koltsova O., Mitrofanova O. ..