• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Социальные сети как социально-психологический и текстовый феномен

Приоритетные направления развития: социология
2019

Цель работы

Будучи междисциплинарным ансамблем, проект включает в себя три части со смежными целями.

(1) Изучить, как свойства эго-сетей пользователей ВКонтакте, отражающие уровень их структурного онлайнового социального капитала, связаны с установками приватности этих пользователей и с когнитивными лимитами, выявленными для оффлайновых отношений. Разработать дизайн исследования и процедуру сбора данных для глубинного изучения структуры онлайновых сетей дружеских связей, паттернов онлайн коммуникации пользователей социальной сети Вконтакте и существующих лимитов, ее ограничивающих.

(2) Улучшить автоматизированное распознавание этнической речи ненависти в неформальных письменных текстах за счет использования лингвистических правил на уровне предложений по сравнению с существующими моделями.

(3) Адаптировать методы теории ренормализации для поиска оптимального числа тем в тематических моделях.

Используемые методы: (1) корреляционный, множественный регрессионный анализ, path-analysis; (2) эксперименты с алгоритмами машинного обучения (SVM, Naïve Bayes, Logistic regression, LSTM/GRU, Word2Vec); (3) поиск необходимых математических формулировок и эксперименты с алгоритмами машинного обучения ().

Эмпирическая база исследования

(1) Во-первых, использованы данные, полученные в рамках проекта 2017 года «Социальный капитал и приватность онлайн: городское сообщество в социальной сети». Данные собирались в период с августа по октябрь 2017 года и включали в себя результаты социально-психологического опроса (n = 357), информацию о сети связей внутри городского сообщества (позволяющей рассчитать показатели структурного капитала на основе сеть дружбы), данные об эго-сетях пользователей (подграф сети городского сообщества включающая только респондента и его друзей). Во-вторых, была сформирована новая выборка пользователей (n = 35) и собраны опросные данные о  структуре эго-сетей пользователей социальной сети и данные  об объеме направленной коммуникации между индивидом и его онлайн друзьями в социальной сети. 

(2) Во-первых, использовался корпус размером (n = 2,7 млн) сообщений всех русскоязычных социальных сетей за один год, содержащих хотя бы один этноним из словаря имен пост-советских этнических групп и собранный из базы данных агрегатора социальных сетей IQBuzz. Во-вторых, выборка из этого корпуса (n = 15 000), размеченная тремя независимыми кодировщиками с оценкой отношения автора к этническому персонажу; также использовалась размеченные на этом подкорпусе 14 кодировщиками пары этноним-глагол.

(3) Для экспериментов использованы три коллекции текстов: русскоязычная (n = 8 624), размеченная пользователями на 10 тем; англоязычная (n = 15 404), размеченная пользователями на 15 тем; франкоязычная (n = 25 000), не размеченная пользователями.

Результаты работы

(1) Обнаружено, что формирование сетевого окружения пользователя определяется его стремлением устанавливать связи. Была установлена взаимосвязь между некоторыми практиками по поддержанию приватности в Сети, установками приватности и показателями структурного социального капитала пользователей социальной сети Вконтакте. Данный результат вносит вклад в понимание механизмов формирования онлайнового социального капитала. Кроме того, в рамках проекта был разработан дизайн нового исследования и с помощью специально разработанного приложения были собраны данные для проверки гипотез о паттернах онлайн – коммуникации (n = 41);

(2) Улучшено качество предсказания речи ненависти по сравнению с результатами 2017 года на 15%, а среднее качество предсказания всех трех типов отношения к этническим группам – на 16%, в терминах меры F-macro.  Кроме того, это последняя мера как минимум на 20% превосходит результаты, полученные на сходных датасетах и сходных задачах, где использовался алгоритм нейронных сетей, при этом попытка воспроизвести такой алгоритм на наших данных приводит к такому же качеству. Это говорит о неоптимальности использования нейронных сетей в нашем и подобных случаях, в частности из-за небольшого размера корпусов, так как нейронные сети чувствительны к размеру.

(3) Разработана и применена процедура ренормализации для оптимизации параметров тематической моделирования, которая минимум на 68% быстрее традиционного подхода.

Рекомендации и область применения

(1) Полученные результаты могут быть использованы как основа для рекомендаций по разработки политики приватности социальных сетей. Кроме того, результаты об особенностях онлайн коммуникации в социальных сетях могут применяться в маркетинговых целях.

(2) Новые модели можно применять для автоматизированного анализа больших коллекций неформальных сообщений на предмет присутствия этнической речи ненависти. Это может быть использовано для модерации производимого пользователями контента в целях соблюдения закона о распространении информации экстремистского характера.

(3) Новый подход может быть использован для быстрой оптимизации тематических моделей, что имеет особое значение для применения тематического моделирования в социальных науках, где особую роль играет воспроизводимость результатов и эмпирическое определение присутствующих в данных там является исследовательской задачей. Таким образом, разработанный подход сокращает затраты времени и ручной работы по кодированию данных.

Публикации по проекту:


Sergei K., Ignatenko V., Pashakhin S. Fast Tuning of Topic Models: An Application of Rényi Entropy and Renormalization Theory // Proceedings. 2020. Vol. 46. No. 1. P. 1-8. doi
Koltsov S., Ignatenko V., Pashakhin S. Fast Tuning of Topic Models: An Application of Rényi Entropy and Renormalization Theory, in: Proceedings of the 5th International Electronic Conference on Entropy and Its Applications.: MDPI AG, 2020. С. 1-8. 
Koltsov S., Ignatenko V. Renormalization approach to the task of determining the number of topics in topic modeling, in: Intelligent Computing: SAI 2020: Volume 1. Switzerland : Springer, 2020. С. 234-247.