• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
21
Апрель

Нескучные исследования

Каждый год студенты третьего курса специализации «Исследования в коммуникациях»  работают над итоговыми групповыми проектами в рамках дисциплины «Инструменты и методы в коммуникационных исследованиях». В прошлом учебном году под руководством преподавателя Департамента Кирилла Чмеля студенты провели более 10 исследований. Получившиеся проекты показывают, что в исследованиях можно самовыражаться и проявлять фантазию, при этом получая полезные и интересные результаты.

Нескучные исследования

Проекты третьекурсников показывают, что в исследованиях есть место творчеству и креативу. Так, ребята изучали тексты хип-хоп исполнителей, отношение к пандемии в разных районах Москвы и регионах России. Мы узнали у ребят, почему они выбрали такие темы, какой инструментарий они использовали и к каким результатам пришли. 

Я не слышу себя под автотюном

Команда: Балашова Анна, Григорьева Анастасия, Федосеева Алина

Наш проект иронично называется «Я не слышу себя под автотюном». Его тема – анализ текстов старой и новой школы рэпа, а также генерация собственного. Мы выбрали ее абсолютно случайно! Нашли смешной мем про эти два направления и нам стало интересно посмотреть, чем отличаются тексты старой и новой школы и сможем ли мы сгенерировать собственный на основе уже существующих

Алина Федосеева
студентка 4 курса

Исследовательский процесс

Шаг 1. Составление базы данных

Было отобрано по 100 представителей старой и новой школы. С сайта Genius ребята выгрузили тексты их песен и объединили их в два txt файла.

Шаг 2. Определение наиболее часто встречающихся слов у двух направлений 

Для этого была проведена кластеризация: студенты проверяли, можно ли отнести тексты к двум кластерам (группам), как это было изначально. Далее ребята провели тематическое моделирование: они определяли темы и их связи в двух общих массивах текстов – для этого они применили метод латентного распределения Дирихле. 

Словарик исследователя: 

Латентное распределение Дирихле – модель, которая помогает объяснить причины сходства разных частей данных. Например, сходства текстов представителей новой и старой школы хип-хопа.

Шаг 3. «Написание» собственного текста

Для этого студентам пригодилась скрытая марковская модель. Это работает так: машина обучается на запоминание стоящих рядом с определенным словом слов, ей задается длина текста и отправное значение. Готово – машина выдает готовый текст!

Словарик исследователя:

Скрытая марковская модель – это модель, которая может на основе заданных параметров разгадать неизвестные параметры. Студенты РиСО таким образом “научили” ее писать рэп на основе уже существующих текстов. В мире эта модель получила широкое распространение в области распознавания речи, письма, движений и биоинформатике.

Результаты

Студенты определили, чем исполнители новой школы отличаются от представителей олдскула: они больше говорят о деньгах, своих достижениях. Тем не менее, в творчестве новой школы отражены традиции, заложенные авторами старой школы, а также присутствует романтическая тема. К примеру, представители нью-скул упоминают Бруклин – район Нью-Йорка, который раньше считался «чёрным» и криминальным – об этой местности начали говорить ещё исполнители старой школы. И хотя среди тем исполнителей присутствуют сходства и различия, можно утверждать, что в хип-хоп музыке существует определенный фольклор: устойчивые темы, выражения, которые свойственны всем исполнителям данного жанра.

Эмоционльная карта районов Москвы

Команда: Васильева Евгения, Игнатьева Елизавета

По мнению ребят, районные сообщества ВКонтакте, такие как «Подслушано Люблино», «Мой Даниловский», всегда были отражением наиболее волнующих для населения тем, площадкой для  обсуждения как районных, так и личных проблем. Поскольку с введением режима самоизоляции горожане стали значительно больше времени проводить онлайн, и, соответственно, чаще выражать свое мнение в социальных сетях, студентам было интересно изучить эти онлайн-сообщества.

Мы решили проанализировать пользовательский контент на таких публичных страницах: выявить тональность сообщений подписчиков и создать интерактивную эмоциональную карту Москвы. Эта карта должна отражать, насколько «позитивным» или «негативным» является каждый из районов столицы в соответствии с эмоциональной окраской комментариев пользователей в этих сообществах.

Евгения Васильева
студентка 4 курса

Исследовательский процесс

Шаг 1. Сбор данных для анализа 

Для исследования были использованы комментарии под постами в районных сообществах Москвы за временной период с 3 марта по 3 мая 2020-го года, анализ проводился с применением языка программирования Python 3.0. Студенты сначала выгрузили, а потом отредактировали тексты 37490 комментариев из 115 публичных страниц, собрав их в отдельную базу.

Шаг 2. Обработка данных
Полученные тексты были загружены в библиотеку под названием Dostoevsky - на получившемся массиве ребята применили предсказательную модель FastTextSocialNetworkModel – так каждому комментарию была присвоена тональность в пределах от -1 до 1 (от самого негативного до самого позитивного соответственно). Средний показатель всех комментариев сообщества и стал выражением тональности района. 

Словарик исследователя: 

Предсказательная модель FastTextSocialNetworkModel – модель, которая обучена определять тон сообщений в социальных сетях именно на русском языке

Шаг 3. Визуализация 

В итоге эти значения были визуализированы на карте районов Москвы с помощью цвета, где светло-голубым были выделены самые “негативные” районы, а темно-сиреневым – «позитивные» (в итоговой карте отсутствует тональность некоторых районов ЦАО, а также района Очаково-Матвеевское и Преображенское, так как в сообществах этих районов отсутствуют комментарии).

Результаты

Наиболее «позитивными» оказались районы, находящиеся за пределами МКАДа (Куркино, Восточный, Некрасовка, Косино-Ухтоминский), а также районы, прилегающие к городским паркам (например, Головинский, Войковский, Покровское-Стрешнево, Нагатино-Садовники, Выхино-Жулебино). При этом остальная часть Москвы всё же лежит в “негативной” стороне. Почему так вышло? Студенты предполагают, что это можно объяснить как спецификой конкретного района, так и тем, что люди в целом склонны возвращаться и писать о плохом намного чаще, чем о чем-то хорошем. Примерно такая же психология работает у потребителей: они с большей вероятностью напишут отзыв о некачественном товаре, который их крайне разочаровал, но скорее всего не напишут о товаре, который их удовлетворил, так как эмоция разочарования намного сильнее мотивирует оставить отзыв.

Как ВКонтакте вовлекает пользователей в дискурс распространения пандемии 

Команда: Шубаев Максим, Андреев Иван, Панькин Никита, Цветков Сергей

COVID-19 быстро распространился по всему миру и перешёл в стадию пандемии – проблема мирового масштаба затронула и Россию. Такие корпорации как Яндекс и Mail.ru Group стараются помочь населению вовлечься в повестку дня и привлечь внимание к проблеме с помощью digital-инструментов. Мы тоже решили внести свою лепту в изучение распространения вируса и способах реагирования пользователей ВК на внезапно появившуюся проблему

Максим Шубаев
студент 4 курса

Исследовательский процесс

Шаг 1. Составление базы данных необходимых пользователей и их характеристик

При помощи API Вконтакте (программного интерфейса, благодаря которому одна программа может взаимодействовать с другой), студенты выгрузили адреса страниц около 300 тысяч пользователей социальной сети. Чтобы выявить отношение людей к пандемии, они выделили определенный атрибут (признак) у каждого пользователя: им стали введенные социальной сетью эмодзи в статусе пользователя, сопровождающиеся текстом. 

Используя метод парсинга веб-страниц, студенты извлекли смайлик и сопровождавший его текст и присвоили их каждому пользователю. Они разделили значки на три группы: «серьёзное отношение к пандемии», «нейтральное отношение» и «несерьёзное отношение». После этого ребята категорировали пользователей по региону для того, чтобы выяснить, какой значок чаще встречается в областях. 

Словарик исследователя: 

Парсинг веб-страниц – метод поиска и сбора необходимой информации из кода страницы

Шаг 2. Сбор статистики по COVID-19 в России по регионам. 

Для оценки реальной эпидемиологической обстановки при помощи парсинга сайта «Коронавирусник», на котором имелась актуальная статистика по эпидемиологической обстановке в регионах России, студенты извлекли необходимые показатели заражаемости и смертности. 

Шаг 3. Выявление связи между индексом отношения пользователей и коэффициентом заражаемости 

После составления полной базы пользователей и скачивания информации с «Коронавирусника», ребята составили индекс отношений каждого региона к пандемии.  Затем они составили коэффициент смертности в каждом отдельном регионе и отразили в итоговой таблице полученные результаты: регионы РФ, соответствующие им коэффициенты смертности и отношения к пандемии, а также текст наиболее часто встречающегося у пользователей смайлика. 

Шаг 4. Визуализация полученных результатов на интерактивной карте России 

При помощи библиотеки Follium студенты внесли координаты столиц каждого региона и создали интерактивную карту.

Словарик исследователя: 

Библиотека Follium – библиотека в Python, направленная на визуализацию геоданных или других данных, которые используют местоположение и координаты

Результаты

Результаты исследования показали, что визуальное отображение отношения к пандемии у пользователей ВК не коррелирует с реальной обстановкой в регионе. Иными словами, то, что пользователи писали о коронавирусе в соцсети, не отображало реальную обстановку в их регионе. 

С нетерпением ждем новых проектов студентов, а ребятам желаем удачи в проведении исследований для выпускных квалификационных работ!