• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Интернет-пользование и интернет-пользователи: межстрановые и межрегиональные сравнения

Приоритетные направления развития: социология
2016

Данное исследование – комплекс трех междисциплинарных подпроектов, которые связаны между собой, но имеют свои отдельные цели, методы и результаты.

Цель первого подпроекта «Поведение пользователей ВКонтакте в межрегиональном разрезе на основе усовершенствованных методов анализа больших данных» - установить связи между сетевыми, текстовыми и социально-демографическими характеристиками пользователей или групп пользователей и проследить их региональные различия или сходства.

Эмпирическая база – случайная  выборка пользователей социальной сети ВКонтакте, декларирующих свое местонахождения в России, включающая данные об активности на "стене", тексты, данные о дружбе и метаданные (пол, регион и др.). Объем выборки: 7827384 записей со «стен» 42459 пользователей из 69 регионов РФ.

Методы: сбор: автоматическая закачка через официальный API. Анализ: описательная статистика, корреляционный и регрессионный анализ, тематическое моделирование стабильных тем на подвыборке из объединенных по автору текстов 36396 пользователей.

Результаты: львиная доля контента социальной сети относится к повседневно-рекреационным темам, обходя стороной острые социальные вопросы, за исключением украинского конфликта и религиозных тем (христианство и ислам).  Наиболее значимым является различие контента в зависимости от пола пользователя, воспроизводящее гендерные стереотипы (женщины – кулинария, красота и дети, мужчины – футбол и политика). Различия в тематике, активности, в мета-данных пользователей, обусловленные регионом проживания и размером города, почти не выражены, что свидетельствует о территориально-географической независимости онлайн-поведения. Однако на индивидуальном уровне показатели активности, обратной связи и связности пользователей имеют колоссальные различия и распределены по степенному закону. Эти результаты имеют большое значение для методики построения выборок из социальных сетей.

Цель подпроекта «Межстрановое сравнение влияния потребления интернета на протестное поведение» - установление связи между потреблением онлайн-новостей и участием в мирных уличных демонстрациях.

Эмпирическая база: примерно 50 тысяч респондентов из 49 стран шестой волны международного опросного проекта World Values Survey, собранные в 2011-2014 годах, и показатели странового уровня из официальных международных источников (например, World Bank).

Методы: сбор: база данных находится в свободном доступе. Анализ: многоуровневая логит- и пробит-регрессия.

Результаты: чтение онлайн-новостей значимо позитивно (но не сильно) связано с вероятностью протестов во всех странах, и нет ни одной страны, где бы связь была отрицательной. Эффект новостей устойчив ко множеству контрольных переменных; он сильнее, чем эффект получения новостей от друзей и из газет, однако слабее эффекта интереса к политике. Кроме того, люди, совмещающие интерес к политике и чтение новостей, заметно более склонны протестовать, чем люди только интересующиеся политикой или только потребляющие новости в интернете.

Цель подпроекта «Разработка вероятностных моделей для обработки естественного языка и поведения интернет-пользователей» - разработать новые вероятностные модели и алгоритмы для обработки текстов, порожденных интернет-пользователями, а также для моделирования поведения и ранжирования в контексте интернет-пользователей.

Эмпирическая база: данный проект анализирует свойства новых алгоритмов. Алгоритмы тематического моделирования тестировались на коллекции постов блогеров из социальной сети ‘Живой Журнал’ объемом 101481 постов и 172939 уникальных слов. Алгоритмы ранжирования тестировались на данных побед/поражений команд, имеющих вид векторных представлений игроков, в объеме 680 турниров и около 50 000 участников.

Методы: сбор: автоматическая закачка через официальный API. Анализ: новые модели тематического моделирования тестировались на стабильность с помощью нормализованной меры Кульбака-Лейблера и коэффициента Жаккара, на качество (когерентность тем) – с помощью AUC и tf-idf согласованности. Предсказательная сила нового алгоритма ранжирования игроков, основанного на обучении нейронной сети, оценивалась через сравнение предсказаний с реальными результатами игр.

Результаты: В экспериментах с алгоритмами тематического моделирования предложен алгоритм GLDA с новым регуляризатором на основе задания функции локальной плотности, позволяющим существенно улучшить стабильность алгоритма, при этом, не снижая его качество. Установлено также, что существующие регуляризаторы могут как несколько повышать стабильность (напр., регуляризатор в виде функции Дирихле), так и снижать ее (напр., регуляризатор разреживания матрицы «документы-темы»). В экспериментах с новой архитектурой нейронной сети после двух-трех эпох обучения достигнут уровень качества 65-69%, который при продолжении обучения не менялся. Этот уровень соответствует базовой модели TrueSkill и лишь слегка уступает более сложной байесовской модели, разработанной ранее, что говорит о возможности избегать в таких задачах разработки байесовских моделей со сложными алгоритмами оптимизации.

Публикации по проекту:


Nora A. K., Olessia Y. K. Online News and Protest Participation in a Political Context: Evidence from Self-Reported Cross-Sectional Data / National research university Higher School of economics. Series WP BRP "Basic research program". 2018. No. WP BRP 58/PS/2018. 
Rykov Y., Meylakhs P., Sinyavskaya Y. Network Structure of an AIDS-denialist Online Community: Identifying Core Members and the Risk Group / Высшая школа экономики. Series SOC "Sociology". 2016. No. 71. 
Кольцов С. Н., Николенко С. И., Кольцова Е. Ю. Gibbs Sampler Optimization for Analysis of a Granulated Medium // Письма в Журнал технической физики. 2016. Т. 42. № 8. C. 837-839. doi
Koltsov S., Nikolenko S. I., Koltsova O., Bodrunova S. Stable topic modeling for web science: Granulated LDA, in: WebSci 2016 - Proceedings of the 2016 ACM Web Science Conference.: Elsevier B.V., 2016. С. 342-343. 
Sergei K., Nikolenko S. I., Olessia K., Vladimir F., Svetlana B. Stable Topic Modeling with Local Density Regularization, in: Internet Science, Proc. of 3d conf INSCI 2016, Lecture Notes in Computer Science series. Switzerland : Springer, 2016. С. 176-188. 
Rykov Y., Nagornyy O. S., Koltsova O., Natta H., Kremenets A., Manovich L., Cerrone D., Crockett D. Semantic and Geospatial Mapping of Instagram Images in Saint-Petersburg, in: Proceedings of the Artificial Intelligence and Natural Language AINL FRUCT 2016 Conference, Saint-Petersburg, Russia, 10-12 November 2016. St. Petersburg : FRUCT Oy, 2016. С. 110-113. 
Рыков Ю. Г. Общественные движения, профессионалы и поклонники в социальной сети «ВКонтакте»: измерение сетевой сплоченности онлайн сообществ, in: Интернет и современное общество: сборник тезисов докладов. Труды XIX Международной объединенной научной конференции «Интернет и современное общество» (IMS‑2016), Санкт-Петербург, 22 – 24 июня 2016 г.. Санкт-Петербург : Университет ИТМО, 2016. С. 33-36.