• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Социально-политические процессы в Интернете: структура и содержание социальных взаимодействий

Приоритетные направления развития: социология, инженерные науки
2014

Данное исследование состоит из трех подпроектов, каждый из которых имеет свой предмет, объект и другие элементы НИР.

Предметом исследования первого подпроекта («Мэппинг этнических аттитюдов в российском сегменте Livejournal с использованием усовершенствованных методов тематического моделирования») являются представления об этнических группах, распространенные в русскоязычных блогах, а также нестабильность алгоритма тематического моделирования, используемого для выявления такой тематики. Предметом второго подпроекта («Структура сообществ в социальных сетях») является совокупность сетевых, структурных и содержательных свойств ряда типов групп в социальной сети ВКонтакте, в том числе: профессиональных групп программистов, групп наблюдателей Санкт-Петербурга и антимедицинских групп. Предметом третьего подпроекта («Онлайновые рекомендательные системы: анализ публикаций и новые разработки») являются рекомендательные системы для ситуации разреженных наборов данных и современные исследования в области рекомендательных систем.

Цель исследования. Цель первого подпроекта: мэппинг аттитюдов русскоязычных пользователей блог-платформы Livejournal по отношению к этническим группам; оптимизация стабильности тематического моделирования. Цель второго подпроекта: выявление связи сетевой структуры группы сообществ ВКонтакте с социально-демографическими характеристиками членов и другими характеристиками членов и групп. Цель третьего подпроекта: разработка новых методов и алгоритмов для рекомендательных систем, а также анализ современных публикаций в области рекомендательных систем.

Эмпирическая база исследования. Эмпирическую базу первого подпроекта состоит составляют: (а) 363579 постов топ-2000 пользователей блог-платформы Живой Журнал по рейтингу социального капитала за 11 недель с 4 февраля по 19 мая 2013 года, 990 из них для ручного анализа; (б) рабочий датасет размером в 101481 постов, на котором тестировались регуляризаторы алгоритма тематического моделирования латентного размещения Дирихле. Эмпирическая база второго подпроекта состоит из следующих частей: (а) 11 группы программистов ВКонтакте численностью более 10 000 человек,  в т.ч. одна группа, взятая для проведения кейс стади, размером 15451 пользователей; (б) 17 районных и одна общегородская группа наблюдателей Санкт-Петербурга, наблюдавшиеся в 16 временных точках, совокупной численностью более 13 тысяч участников; (в) эго-сеть  группы СПИД-диссидентов ВКонтакте, составленная на основе гиперссылок, с размерностью 2.0, состоящая из 11 онлайн-групп. Эмпирическая база третьего подпроекта состоит из следующих частей: (а) датасет системы онлайн-радиобродкастинга FMhost из 4266 пользователей, 3618 тегов, 2209 радиостанций и 4165 треков; (б) автоматически сгенерированный массив статей о рекомендательных системах, созданный из списка из 18 топ-конференций, где публикуются статьи по этой тематике.

Результаты исследования

Результаты первого подпроекта. Установлено, что наиболее интенсивно в блогах обсуждаются два типа этнических групп: в первую очередь удаленные «геополитические враги» (напр., американцы) и во вторую очередь близкие, но социально-проблемные группы (напр., таджики). В трех четвертях текстов этнические группы обсуждаются либо в политическом, либо в культурно-ритуальном контексте, с большим перевесом в сторону первого. При этом с большой вероятностью одни нации обсуждаются в одних типах контекста, другие – в других. Выявлено, что пятерку самых негативно описываемых составляют кавказец, таджик, дагестанец, американец и африканец/негр; среди наиболее «ущербных» групп оказались таджик и чеченец; среди шести наций с индексом опасности выше 1 – дагестанец, кавказец, американец, британец; среди шести наций с индексом чуждости выше 1 – дагестанец, американец, чеченец, немец, британец. Установлено, что уже на момент исследования, то есть зимой – ранней весной 2013 года, в обсуждении в блогах присутствовали две «украинских про-/антибандеровских темы», в которых обозначились все болевые точки будущего конфликта.

В ходе исследования стабильности трех алгоритмов тематического моделирования определенно, что предлагаемый здесь гранулированный метод сэмплирования приводит к наибольшему, по сравнению с другими методами, увеличению числа стабильных тем до 138 из 200 против 84 и 135, в соответствие с нормализованной мерой Кульбака-Лейблера,  и дает существенно большую величину коэффициента Жаккара (0,6 против 0,3).

Результаты второго подпроекта. Выявлено, что районные группы наблюдателей Санкт-Петербурга являются не самостоятальными независимо возникшими движениями, а ячейками городского движения, аффилиированными с ним в разной степени. Пик активности групп наблюдателей приходится на электоральный цикл 2011-2012 годов. Однако те группы, которые изначально были «живыми», не умирают, а стабилизируются. Установлено, что модераторы, то есть лидеры сообществ, генерируют повестку дня, а сообщество выражает мнения по ней и одобрение / солидарность. Размер групп связан с количеством постов от имени сообщества, что говорит о существенной роли лидерства для успешности группы. Оффлайновые лидеры движения наблюдателей, названные информантами, хорошо предсказываются на основании их онлайновых характеристик, в частности, на основании их центральности в общей сети дружбы, количества районных групп, к которым они принадлежат, количества полученной обратной связи.

Выявлено, что никакие типы связей, устанавливаемые в исследованном профессиональном сообществе программистов, не устанавливаются на основе их географического положения, то есть подтверждается гипотеза о существовании гео-независимых групп. При изучении эгосети сообщества СПИД-диссидентов не обнаружено достаточных доказательств того, что она отражает единое антимедицинское движение.

Результаты третьего подпроекта. Разработаны три новых рекомендательных алгоритма для систем с тегами, в частности TagLDA; проведены эксперименты, подтверждающие, что для датасетов малого размера разработанные алгоритмы показывают значительно лучшие результаты, чем стандартные алгоритмы. Создан обзор основных результатов и трендов в области рекомендательных систем на основе современных публикаций в этой области. Разработано ПО, реализующее обучение модели TagLDA.

Рекомендации по внедрению или итоги внедрения результатов НИР. Все три исследованные в первом подпроекте математические модели реализованы в виде ПО, внедренного во многие проекты лабортаории.  Результаты НИР в области разработки новых рекомендательных алгоритмов и систем могут быть внедрены в любой рекомендательной системе небольшого размера. Методики НИР в области анализа этнических аттитюдов могут использоваться для анализа аттитюдов и тематического мэппинга онлайн-дискурса в целом и служить основной для выработки государственной политики в области соответствующих проблем. 

Публикации по проекту:


Koltsova, O., Koltcov, S., Alexeeva, S. Do ordinary bloggers really differ from blog celebrities?, in: Proceedings of WebSci '14 ACM Web Science Conference, Bloomington, IN, USA — June 23 - 26, 2014. NY : ACM, 2014. P. 166-170.
Svetlana Alexeeva, Olessia Koltsova, Sergei Koltsov Общественное мнение онлайн: сравнение структуры и тематики постов «обычных» и «популярных» блогеров Живого Журнала // В кн.: Supplementary Proceedings of the 3rd International Conference on Analysis of Images, Social Networks and Texts (AIST 2014) / Ed. by D. I. Ignatov, M. Y. Khachay, A. Panchenko, N. Konstantinova, R. Yavorsky, D. Ustalov. Vol. 1197: Supplementary Proceedings of AIST 2014. Ekaterinburg : CEUR Workshop Proceedings, 2014. С. 177-181.
Nikolenko S. I., Koltsov S., Koltsova O. Measuring Topic Quality in Latent Dirichlet Allocation, in: Proceedings of the Philosophy, Mathematics, Linguistics: Aspects of Interaction 2014 Conference. St. Petersburg : The Euler International Mathematical Institute, 2014. P. 149-157.
Bodrunova S., Nikolenko S. I., Koltsova O., Koltsov S., Шиморина А. Interval Semi-Supervised LDA: Classifying Needles in a Haystack, in: Proceedings of the 12th Mexican International Conference on Artificial Intelligence (MICAI 2013) Part I: Advances in Artificial Intelligence and Its Applications. Berlin : Springer, 2013. P. 265-274.
Koltsov S., Koltsova O., Nikolenko S. I. Latent Dirichlet Allocation: Stability and Applications to Studies of User-Generated content, in: Proceedings of WebSci '14 ACM Web Science Conference, Bloomington, IN, USA — June 23 - 26, 2014. NY : ACM, 2014. P. 161-165.
Структурная и прикладная лингвистика Кн. 10. СПб. : Издательство Санкт-Петербургского государственного университета, 2014.
Ignatov D. I., Nikolenko S. I., Abaev T., Konstantinova N. Online Recommender System for Radio Station Hosting: Experimental Results Revisited, in: Proceedings of The 2014 IEEE/WIC/ACM International Joint Conference on Web Intelligence and Intelligent Agent Technology, WI-IAT 2014, 11-14 August 2014 Warsaw, Poland / Ed. by D. Slezak, H. S. Nguyen, M. Reformat, S. J. Eugene. Los Alamitos, Washington, Tokyo : IEEE Computer Society, 2014. P. 229-236.
Кольцов С. Н., Кольцова О. Ю., Митрофанова О. А. Интерпретация семантических связей в текстах русскоязычного сегмента Живого Журнала на основе тематической модели LDA
Видясова Л. А., Кольцов С. Н., Чугунов А. В. Формирование «повестки дня» в сфере электронного правительства: результаты контент-анализа новостных сообщений // В кн.: Технологии информационного общества в науке, образовании и культуре. Сборник научных статей. Труды XVII Всероссийской объединенной конференции «Интернет и современное общество» Санкт-Петербург, 19 – 20 ноября 2014 г. СПб. : Университет ИТМО, 2014. С. 124-128.
Митрофанова О. А., Шиморина А. С. Моделирование семантических связей в текстах социальных сетей с помощью алгоритма LDA (на материале русскоязычного сегмента Живого Журнала) // В кн.: Структурная и прикладная лингвистика Кн. 10. СПб. : Издательство Санкт-Петербургского государственного университета, 2014.
Кольцов С. Н., Кольцова О. Ю., Митрофанова О. А., Шиморина А. Интерпретация семантических связей в текстах русскоязычного сегмента Живого Журнала на основе тематической модели LDA // В кн.: Технологии информационного общества в науке, образовании и культуре. Сборник научных статей. Труды XVII Всероссийской объединенной конференции «Интернет и современное общество» Санкт-Петербург, 19 – 20 ноября 2014 г. СПб. : Университет ИТМО, 2014. С. 135-142.
Ignatov D. I., Nikolenko S. I., Abaev T., Poelmans J. Improving Quality Of Service For Radio Station Hosting: An Online Recommender System Based On Information Fusion / NRU Higher School of Economics. Series MAN "Management". 2014. No. 31.