• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Интернет как социо-технический феномен

Приоритетные направления развития: социология
2017

Данное исследование – комплекс трех междисциплинарных подпроектов, которые связаны между собой, но имеют свои отдельные цели, методы и результаты.

Цель первого подпроекта «Социальные сети, социальный капитал и приватность» – изучить факторы, влияющие на формирование и восприятие социального капитала в онлайн социальной сети.

Эмпирическая база: Исследование построено на двух видах данных: серверных данных, репрезентирующих естественное поведение пользователей, и данных онлайн опроса. Серверные данные представляют собой выборку пользователей социальной сети ВКонтакте, декларирующих город Вологда в качестве своего места проживания, включая данные о коммуникационной активности на "стене", данные о связях "дружбы" и метаданные (пол, возраст и др.). Конечная совокупность составила 193335 пользователей и 9800107 ребер в сети дружбы. Число полностью заполненных анкет пользователей из города Вологда составило 375.

Методы: сбор: автоматическая закачка серверных данных через официальный API ВКонтакте; проведение опроса с помощью специального онлайн-приложения. Анализ: сетевой анализ, описательная статистика, корреляционный и регрессионный анализ методом наименьших квадратов.

Результаты: Участие пользователя в онлайн-сообществах, доля постов других и число лайков у него на стене (как способы поддержания отношений и сигналы внимания), а также число размещенных изображений в профиле, восполняющих недостающий социальный контекст, значимо (но не сильно) связаны с показателями его структурного социального капитала в городской сети дружбы: со степенью центральности, индексом скованности Берта и локальным коэффициентом кластеризации.  Кроме того, установлено, что индикаторы структурного социального капитала практически не связаны с измерением воспринимаемого социального капитала. Наконец, выявлено, что пользователи, профили которых защищены настройками приватности, в большей степени демонстрируют склонность к поиску новых связей на сайте социальной сети, к участию в онлайн сообществах и к практике поддержания отношений с онлайн окружением.

Рекомендации по внедрению: Результаты данного исследования могут найти широкое применение в маркетинговых исследованиях для решения задачи выявления потенциальных лидеров мнений в сетях локальных сообществ, а также пользователей посредников, связывающих разрозненные социальный группы города.

Цель второго подпроекта «Освещение Украинского кризиса на сайтах телеканалов России и Украины: сравнительный анализ 2013-2014» – выявить и объяснить различия и сходства в формировании повестки дня сайтами российского и украинского каналов.

Эмпирическая база: коллекция новостных текстов с вебсайтов Первого канала (Россия) и Пятого канала (Украина) за период с 1 сентября 2013 года по 1 сентября 2014 года. Коллекция составила 44 989 текстов, из которых 20025 принадлежат Пятому каналу и 24 964 – Первому. Подготовка коллекций включала в себя процедуру перевода украинских текстов на русский с помощьюавтоматического переводчика Яндекса, лематизацию ( MyStem) и удаление стоп-слов.

Методы: сбор: прямой парсинг с вебсайтов телеканалов. Анализ: тематическое моделирование методом LDA с использованием сэмплирования Гиббса. Получено 5 решений по 100 тем; похожесть обнаруженных тем оценивалась мерой расхождения Кульбака-Лейблера.

Результаты: Выявлены различия в новостных повестках российского и украинского телеканалов и выявлено умалчивание некоторых тем, уникальных для каждого канала. Пятый канал умалчивает тему беженцев из зоны вооруженных столкновений на юго-востоке Украины и деятельность «Правого сектора». Первый канал умалчивает тему международных санкций, наложенных на Россию за присоединение Крыма, тему выборов президента Украины 2014 года, освобождения Юлии Тимошенко, а также проблемы с поставками газа в Украину. Списки умалчиваемых тем отражают интересы правительств соответствующих стран. Таким образом, нельзя сделать вывод, что один из каналов (российский либо украинский) более объективен, чем другой.

Рекомендации по внедрению: Тематическое моделирование может быть использовано в разработке приложений автоматизированного контент-анализа (мониторинга) новостей для обнаружения новостной повестки и фрэйминга.

Цель третьего подпроекта «Оптимизация тематических моделей для анализа интернет-контента» – разработать термодинамический подход к проблеме определения оптимального числа тем в смеси распределений и исследовать возможную связь стабильности тематического моделирования с выбором оптимального числа тем.

Эмпирическая база: два набора данных на русском и английском языках. Датасет на русском языке представляет собой коллекцию постов из Живого Журнала, объем коллекции равен 101 481 постов. Англоязычная коллекция представляет собой известный датасет ‘20  newsgroup dataset’ (News20), объем коллекции составляет 15404 поста. Подготовка коллекций включала в себя процедуру лематизации, удаления стоп-слов, конвертация в crc32 формат.

Методы: сбор: русскоязычный набор данных был собран в предыдущих проектах лаборатории; англоязычный набор данных был загружен из общедоступного источника. Анализ: тематическое моделирование на основе 4-ех алгоритмов (pLSA, LDA (E-M algorithm), LDA и GLDA (Gibbs sampling)) с вариацией параметра ‘число тем’. Вычисление свободной энергии и двух версий энтропии (Реньи и Тсаллиса) для каждой модели и каждой величины параметра ‘число тем’. Вычисление коэффициента Жаккара для каждой тематической модели в виде функции от параметра ‘число тем’.

Результаты: сделан важный шаг на пути улучшения алгоритмов тематического моделирования, которые необходимы для анализа больших коллекций интернет-текстов. Сформулирован энтропийный подход на основе энтропий Реньи и Тсаллиса и учете зон семантической стабильности к анализу поведения сложных текстовых систем, который позволяет определить оптимальное число тем в тематических моделях. Оптимальное число тем соответствует ситуации, когда в тематической модели находится минимум неэкстенсивной энтропии. В работе показано, что модели на основе сэмплирования Гиббса и на основе  E-M алгоритмов дают сходные результаты в области глобального минимума неэксенсивной энтропии. Однако модели на основе сэмплирвоания Гибсса показывают дополнительные локальные минимумы, которые могут быть интересны для целей социологического анализа.

Степень внедрения: в качестве первого шага внедрения результатов данного исследования был сделан доклад 4 октября 2017в Школе Анализа Данных Яндекса, Москва.

Публикации по проекту:


Рыков Ю. Г., Нагорный О. С. Область интернет-исследований в социальных науках // Социологическое обозрение. 2017. Т. 16. № 3. С. 366-394.
Rykov Y., Nagornyy O. S., Koltsova O. Digital Inequality in Russia through the Use of a Social Network Site: A Cross-Regional Comparison, in: Digital Transformation & Global Society: Second International Conference, DTGS 2017, St. Petersburg, Russia, June 21-23, 2017, Revised Selected Papers. Springer International Publishing, 2017. P. 70-83. doi
Нагорный О. С. Репрезентация этничностей в русскоязычных социальных медиа // Мониторинг общественного мнения: Экономические и социальные перемены. 2017. № 4. С. 165-184. doi
Koltsova O., Pashakhin S. Agenda Divergence in a Developing Conflict: A Quantitative Evidence from a Ukrainian and a Russian TV Newsfeeds / National research university Higher School of economics. Series WP BRP "Basic research program". 2017. No. 79/SOC/2017.
Sinyavskaya Y., Koltsova O. Self-disclosure online and offline: the Effect of Age // Annual Review of CyberTherapy and Telemedicine. 2017. Vol. 15. P. 88-91.
Koltsova O., Pashakhin S. Agenda Divergence in a Developing Conflict: A Quantitative Evidence From a Ukrainian And a Russian TV Newsfeeds // European Journal of Communication. 2017
Pashakhin S. Topic Modeling for Frame Analysis of News Media, in: Proceedings of the Artificial Intelligence and Natural Language AINL FRUCT 2016 Conference, Saint-Petersburg, Russia, 10-12 November 2016 / Сост.: S. I. Balandin, А. Фильченков, Л. М. Пивоварова, J. Zizka. FRUCT Oy, 2016. P. 103-106.
Nagornyy O. S., Koltsova O. Mining media topics perceived as social problems by online audiences: use of a data mining approach in sociology / NRU Higher School of Economics. Series SOC "Sociology". 2017. No. WP BRP 74/SOC/2017.