• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
14
Май

Белки в Нью-Йорке, топ Spotify, поступление в Вышку и московская недвижимость: что четверокурсники РиСО изучали с помощью больших данных

Студенты 4 курса программы «Реклама и связи с общественностью» рассказали о своих финальных проектах по курсу «Инструменты и методы в коммуникационных исследованиях».

Белки в Нью-Йорке, топ Spotify, поступление в Вышку и московская недвижимость: что четверокурсники РиСО изучали с помощью больших данных

На образовательной программе «Реклама и связи с общественностью» студенты 3 и 4 курсов обучаются на одной из восьми специализаций. Специализация «Исследования в коммуникациях» фокусируется на работе с данными: студенты учатся анализировать массивы данных, программировать, создавать наглядную визуализацию, разрабатывать удобные боты и сайты для пользователей. Мы поговорили со студентами специализации о проектах, над которыми ребята работали в рамках курса «Инструменты и методы в коммуникационных исследованиях»: изначальной идее, процессе работы и финальном результате.

Moscow Real Estate & House Info

Авторы: Артур Измайлов, Алёна Отман, Арина Сергеева

Идея проекта: на основе базы данных “научить” модель предсказывать стоимость недвижимости в Москве с определенными параметрами. 

У нас получилась регрессионная модель, которая на это способна – разумеется, не со 100% точностью, но достаточно неплохо для учебного проекта. Дополнительно мы сделали кластеризацию объектов недвижимости и нанесли их на карту города.

Артур Измайлов
студент 4 курса РиСО

Как проходила работа над проектом 

Подбор базы данных
Датасет был найден на ресурсе Kaggle (социальная сеть специалистов по обработке данных и машинному обучению – прим. ред.)

Предобработка и трансформация данных
На основании GPS координат студенты отобрали наблюдения только по Москве и рассчитали расстояния от объектов недвижимости до центра города. В итоге из ~2 миллионов наблюдений по всей России (объектов недвижимости с их параметрами) осталось около 150 тысяч, относящихся к Москве, которые затем использовались в модели. 

Регрессионное моделирование
Студенты построили несколько моделей и выбрали лучшую.

Кластеризация
Кластеризация проводилась методом k-средних. Некоторые ограничения студенты прописали на финальном лендинге проекта.

Результат проекта

Преподаватель курса Кирилл Чмель на предзащите проекта предложил ребятам сделать лендинговую страницу. В ней студенты сделали основной акцент именно на кластеризацию (рекомендуется открывать сайт с компьютера). 

Исследование топа Spotify

Авторы: Микаэль Барадаран, Алла Мелкая, Александра Сизова, Лариса Сазонова

Идея проекта: посмотреть, какие жанры и исполнители чаще других встречаются в топе Spotify; найти в топе песни-победители «Евровидения» и Грэмми и на основании характеристик этих песен разработать «формулу хита», а также посмотреть, чем отличаются песни, победившие в этих двух конкурсах. 

Как проходила работа над проектом

Участники команды распределили обязанности между собой и каждый работал с выделенными ему задачами – студенты контролировали ход рабочего процесса, регулярно созваниваясь и обсуждая промежуточные результаты. Например, Алла Мелкая занималась обработкой данных, чтобы выделить песни-победители на «Евровидении» и Грэмми и посмотреть на их показатели по разным характеристикам.

Выяснилось, что в Евровидении побеждают песни с высокими показателями позитивности, танцевальности и энергичности, а в Грэмми – с высокими показателями акустичности.

Алла Мелкая
студентка 4 курса РиСО

Трудоемкой оказалась задача по выявлению музыкальных жанров. В датасете от сервиса композиции делятся на очень узкие жанры: например, вместо одного большого жанра "поп" в нем есть "подростковый поп", "пост-подростковый поп", "танцевальный поп" и т.д. Также один трек может относиться к нескольким жанрам как это часто бывает с кинофильмами. Студенты хотели создать фиктивные переменные, чтобы посмотреть на распределение для разных исполнителей, но столкнулись с технической проблемой: количество таких переменных превышало лимит столбцов в датафрейме – жанров было больше 500. В итоге для продолжения работы над проектом ребята сгруппировали жанры.


Бот в Telegram, который предсказывает вероятность поступления на бюджет 

Авторы: Микаэль Барадаран, Алла Мелкая, Александра Сизова

Идея проекта: Telegram-бот, который может предсказать вероятность поступления абитуриента на бюджетное или коммерческое место на образовательных программах ФКМД

Как проходила работа над проектом 

Студенты поставили перед собой следующие задачи:
- найти в интернете данные о том, какие студенты проходили с какими баллами на бюджет/коммерцию на различные образовательные программы
- обезличить их
- привести их к удобному для программирования формату
- написать математическую модель, которая будет рассчитывать вероятность поступления
- сделать из полученного алгоритма Telegram-бот

Результат проекта

Итогом проекта стал бот, работу которого можно описать следующим образом: сначала абитуриент заходит в бота выбирает программу на которую он хочет себя «проверить». Далее выбирает предметы, которые ему нужно отправить, а также баллы за предметы. Там стоит валидация, поэтому отправить что-то не в диапазоне 0-100 нельзя. После отправки всех баллов бот подсчитывает вероятность поступления.

Белки и визуализация данных

Авторы: Лиза Несмиян, Эвелина Алхимова, Яна Пилявец, Антон Черноусов, Алина Довгиенко

Идея проекта: существует организация «Перепись белок», основная миссия которой заключается в наблюдении и подсчете белок как одних из самых недооцененных животных на планете. В 2018 году «Перепись белок» подсчитали всех белок в Центральном парке Нью-Йорка. В 2021 году данные обновились: студенты РиСО решили обновить информацию на сайте, а также добавить более интересную и содержательную визуализацию на основе собранных данных. 

Нам было необходимо сделать финальный проект, в котором мы бы использовали все возможные инструменты визуализации, пройденные за курс. Нам не нужно было парсить данные, можно было взять просто готовый датасет, что мы и сделали. Мы долго думали, что мы можем сделать чисто по приколу, и вот однажды нашли датасет «Перепись белок в Центральном парке».

Алина Довгиенко
студентка 4 курса РиСО

Как проходила работа над проектом

Ребята делают вместе не первый проект: в начале работы они вместе определились, какую визуализацию могут сделать на основе данных, которые у них были, а затем каждый из них взял себе задачу и делал свой график с помощью кода и инструментов визуализации. В процессе работы были использованы инструменты Plotly, Flourish, Infogram, Pywaffle и Figma. 

Результат проекта

Финальным шагом стало создание полноценного сайт на Tilda: пока у него есть только десктопная версия, поэтому вы можете посмотреть его с компьютера.