• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Измерение социальных и текстовых свойств аккаунтов пользователей социальных сетей

Приоритетные направления развития: социология
2018

Данное исследование – комплекс трех междисциплинарных подпроектов, которые связаны между собой, но имеют свои отдельные цели, методы и результаты.

Социальные сети как пространство формирования социального капитала

Цель первого подпроекта «Социальные сети как пространство формирования социального капитала» изучить, как поведение пользователей, отношение к приватности, желание заводить друзей влияет на их воспринимаемый социальный капитал.

Эмпирическая база: Исследование построено на двух видах данных: серверных данных, репрезентирующих естественное поведение пользователей, и данных онлайн опроса. Серверные данные представляют собой выборку пользователей социальной сети ВКонтакте, декларирующих город Вологда в качестве своего места проживания, включая данные о коммуникационной активности на "стене", данные о связях "дружбы" и метаданные (пол, возраст и др.). Конечная совокупность составила 193335 пользователей и 9800107 ребер в сети дружбы. Число полностью заполненных анкет пользователей из города Вологда составило 375.

Методы: сбор: автоматическая закачка серверных данных через официальный API ВКонтакте; проведение опроса с помощью специального онлайн-приложения. Анализ: множественный регрессионный анализ, корреляционный анализ и др., в имплементации пакетов для среды статистических вычислений R (stats, igraph, mediation, lavaan, sem, semTools).

Результаты: В ходе анализа была установлена значимость такого фактора как «склонность устанавливать связи» для предсказания показателей социального капитала пользователей, а также влияние такой переменной как «поддержание отношений в Сети», опосредующей (медиирующей) данную взаимосвязь. Гипотезы о значимой роли установок пользователей относительно приватности не нашли подтверждения. Обеспокоенность приватностью регулирует поведение пользователей только относительно информационного аспекта приватности (открытости их онлайн-профиля другим пользователям социальной сети и публичное размещение постов у себя на «стене»). Более молодые пользователи, а также те, кто характеризуется более высокими показателями самооценки, склонны воспринимать свой сближающий социальный капитал как более высокий.

Рекомендации по внедрению: Используемые в исследовании шкалы, предложенные в зарубежных работах для Facebook и адаптированные к ВКонтакте могут успешно применяться для анализа пользователей русскоязычных социальных сетей. Степень влияния факторов на социальный капитал пользователей зависит от принадлежности их к той или иной возрастной группе, а также от их целей использования сайта социальной сети ВКонтакте. Величина эффекта и значимость некоторых переменных при моделировании социального капитала может зависеть от особенностей выборки.

Валидация тонального словаря для анализа социально-политических текстов пользователей социальных сетей

Цель второго подпроета «Валидация тонального словаря для анализа социально-политических текстов пользователей социальных сетей»: провести валидацию тонального словаря LINIS-CROWD (PolSentiLex) на текстах социально-политической направленности, написанных пользователями социальных сетей.

Эмпирическая база подпроекта включает два датасета: 1) выборка текстов социально-политической тематики из крупной базы данных постов и комментариев топ-2000 пользователей LiveJournal за период с марта 2013 по март 2014 гг., а также 2) выборка социально-политических сообщений пользователей со всех русскоязычных социальных медиа, содержащих как минимум один этноним, за период с января 2014 по декабрь 2015, собранных коммерческих аггрегатором IqBuzz.

Методы: Валидация и сравнение лексиконов произведено серией экспериментов с использованием методов машинного обучения (SVM, KNN, Naïve Bayes), а также одного словарного алгоритма – SentiStrength. Результаты проанализированы метриками: F-macro, точность результатов и инструментов, а также полнота.

Результаты: Эксперименты показали, что словарный подход в среднем лучше любого метода машинного обучения для тональной классификации социально-политических текстов с любым из использованных наборов обучающих признаков. LINIS-CROWD (PolSentiLex), разработанный ЛИНИС, лучше своего единственного русскоязычного аналога, демонстрируя более точные или сравнимые результаты при значительно меньшем размере (всего 33% размера RuSentiLex).

Рекомендации по внедрению: Для сентимент анализа социально-политических текстов русскоязычных социальных медиа, учитывая доступные ресурсы, исследователю социальных наук лучше использовать словарный подход с использованием LINIS-CROWD (PolSentiLex). Вместе с большей точностью, такой подход дешевле и более доступный, чем тренировка любого алгоритма машинного обучения или использование платного сервиса, а также намного быстрее, показывает лучшие результаты с меньшим лексиконом и без необходимости производить затратные статистические вычисления.

Оценка эффекта семантической стабильности и выбора числа тем на результаты тематического моделирования интернет-контента

Цель третьего подпроекта «Оценка эффекта семантической стабильности и выбора числа тем на результаты тематического моделирования интернет-контента»: разработать генерализированную версию термодинамического подхода к определению оптимального числа тем в тематическом моделировании, с учетом семантической стабильности тематических моделей.

Эмпирическая база: два свободно доступных датасета с заранее известным числом тем на русском и английском языках.

Методы: 1) Математическая формулировка термодинамического подхода к проблеме определения числа тем на основе формализма Джеймса и с учетом двухпараметрической энтропии; 2) математический анализ ограничений термодинамического подхода, связанных с разными формулировками определения средних величин; 3) компьютерные эксперименты по вычислению двухпараметрической энтропии для трех тематических моделей.

Результаты: Результаты численных экспериментов показывают, что двухпараметрическая энтропия Шарма-Митталь в формулировке ‘2-q’, позволяет, с одной стороны, определить минимум энтропии при изменении параметра деформации q=1/T, с другой стороны, использование, в качестве второго параметра деформации r-величины коэффициента Жаккара, позволяет учесть семантическую составляющую тематических моделей. Сформулирован алгоритм определения зон стабильности и оптимальных параметров в тематических моделях.

Рекомендации: Для анализа больших текстовых коллекций с использованием тематического моделирования в рамках социальных наук важно правильно задать параметр, отвечающий за количество тем, которые следует выделить. Для этого необходимо использовать алгоритм определения оптимального числа тем и зон семантической стабильности. Так как энтропия Шарма-Митталь является наиболее пригодной информационной мерой для определения качества тематических моделей, то следует использовать основанный на ней подход. При этом энтропия Шарма-Митталь должна использоваться именно в дуальной форме.

Публикации по проекту:


Ignatenko V., Sergei Koltcov, Staab S., Boukhers Z. Fractal approach for determining the optimal number of topics in the field of topic modeling // Journal of Physics: Conference Series. 2019. Vol. 1163. No. 1. P. 1-6. doi
Rykov Y., Sinyavskaya Y., Koltsova O. Accumulating social capital in an online urban network: The effects of user behaviors / NRU Higher School of Economics. Series SOC "Sociology". 2018. No. 83/SOC/2018 .
Koltsov S. Application of Rényi and Tsallis entropies to topic modeling optimization // Physica A: Statistical Mechanics and its Applications. 2018. Vol. 512. P. 1192-1204. doi
Koltsov S., Boukhers Z., Ignatenko V., Staab S. Hyper-parameters Tuning in Topic Modeling based on Renyi Entropy and Deformed Perplexity, in: Companion Proceedings of the Web Conference 2019. ACM Press, 2019.
Mavrin A., Filchenkov A., Koltsov S. Four Keys to Topic Interpretability in Topic Modeling, in: Artificial Intelligence and Natural Language, 7th International Conference, AINL 2018, St. Petersburg, Russia, October 17–19, 2018, Proceedings Issue 930. Switzerland : Springer, 2018. doi P. 117-129. doi
Koltsova O. Methodological Challeges for Detecting Interethnic Hostility on Social Media, in: Internet Science. INSCI 2018 Vol. 11193. Springer, 2018. doi
Nagornyy O. S. Topics of Ethnic Discussions in Russian Social Media, in: Digital Transformation and Global Society Third International Conference, DTGS 2018, St. Petersburg, Russia, May 30 –June 2, 2018, Revised Selected Papers, Part I / Ed. by Daniel A. Alexandrov, A. V. Boukhanovsky, A. V. Chugunov, Y. Kabanov, O. Koltsova. Issue 858. Cham : Springer, 2018. doi Ch. . P. 83-94. doi
Nagornyy O. S. User ethnicity and gender as predictors of attitudes to ethnic groups in social media texts, in: Internet Science. INSCI 2018 Vol. 11193. Springer, 2018. doi