• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

1, 2, 3, 4: четвертый хакатон DH центра НИУ ВШЭ: что было на прошлых хакатонах и чего ждать от нового

13 ноября 2021 года в 11:00 начнется очередной онлайн-хакатон Центра цифровых гуманитарных наук НИУ ВШЭ. Анализ датасетов, сотни принтов футболок, 3000 мемов и целое море метаданных всех сортов и расцветок ждет участников хакатона.

1, 2, 3, 4: четвертый хакатон DH центра НИУ ВШЭ: что было на прошлых хакатонах и чего ждать от нового

Стать участником можно заполнив форму. В форме напишите, пожалуйста, свои настоящие Фамилию и Имя, чтобы все дипломы участников смогли найти своих хозяев. Участвовать можно как индивидуально, так и в команде. Оптимальный размер команды 3-4 участника, но ограничений нет. После заполнения формы мы добавим вас в чат.  Если у вас нет готовой команды, но вы хотите ее обрести — мы вам предложим подключиться к одной.

Как все начиналось


Первый хакатон по Digital Humanities и журналистике данных  прошел 27 апреля 2019 года. В организации хакатона участвовал Центр цифровых гуманитарных исследований НИУ ВШЭ совместно с научно-популярным изданием «Системный Блокъ».
Первопроходцами DH хакатона стали около 40 человек: студенты бакалавриата и магистратуры НИУ ВШЭ, представители других исследовательских организаций, сотрудники НКО и IT-компаний.
Участникам предстояло разделиться на команды для работы над одной из 4 больших тем:
  • НеИзвестный солдат: социология призыва на фронт во время Великой отечественной войны;
  • Где, о чем и когда писали в СМИ: тематическое моделирование российской региональной прессы;
  • Похожа ли Москва на мировые столицы: сеть квартир airbnb как отражение социально-экономических характеристик города;
  • Количественный анализ современного русского научпопа: по разному ли пишут Arzamas и N+1?
Кофе, печеньки и большие данные помогли ребятам выяснить много интересного. Например, оказалось, что научно-популярные лекции таких ресурсов как Постнаука и Полит.ру, помимо общей тематики объединяет большой объем междометий. Естественно-научную и инженерную тематику текста можно определить по дробям, а гуманитарии в своих работах не скупятся на союзы. Также стало известно, из каких союзных республик призывали на фронт меньше всего, какие районы Москвы имеют “завышенную самооценку”, а также о чем пишут Олеги.
С этими и многими другими увлекательными результатами исследований участников хакатона можно здесь.

Таки были впечатления участников первого хакатона

Екатерина Боровикова
“Мне очень понравилась атмосфера на хакатоне. Я думаю, все классные вещи как-то так и начинаются — с людей, которым просто по фану собраться вместе и запилить что-нибудь прикольное. Наша команда свой проект сделать не успела, но мы так воодушевились, что хотим собраться в ближайшие дни и все-таки доделать его. Я считаю, найти такую команду — это бесценно”

Мария Подрядчикова

“Большое спасибо за возможность плохо покодить в приятной компании! Мы научились куче вещей (как технически, так и организационно) и хотим теперь повторить когда-нибудь еще”.

Продолжение следует: второй хакатон


Следующий хакатон не заставил себя ждать и прошел 3 августа этого же года. На этот раз встреча проводилась в выездном формате на берегу Волги, неподалеку от Дубны. Покодить на природе собралось около 50 человек  — участники мастерской «Анализ данных в социальных и гуманитарных науках», также известной под названием АнДан. На хакатоне также были преподаватели и студенты НИУ ВШЭ.
Участникам предстояла работа с разнообразным набором данных. Среди них был датасет с предложениями жилья на Airbnb содержал данные по съемным домам, квартирам и комнатам в Нью-Йорке, Лондоне и Сиднее; большой корпус российских газетных текстов с 2000 года и фаворит среди команд - набор данных о призыве во время Великой отечественной войны, где на этот раз исследовали не только региональные особенности призыва, но и гендерные параметры, соотношение солдат и офицеров и другие параметры.
В работе с данными участники получили много уникального опыта и нашли немало интересных фактов, нашедших свое место в презентациях, с которыми участники вступили друг перед другом в конце “закода”.
Хакатон завершился общим костром, на котором за жаркой сосисок участники сошлись на том, что хакатон удался на славу.

Третий хакатон: полный онлайн


Третий хакатон состоялся 17 января 2021 года. Прошел он полностью в онлайн формате и стал самым масштабным хакатоном Центра цифровых гуманитарных исследований НИУ ВШЭ. Встреча прошла неформально и очень продуктивно.
В хакатоне приняли участие 80 человек, разделившихся на 33 команды. Благодаря удаленному формату мероприятия, участники собрались не только из разных московских вузов, но и из разных городов.
На выбор участникам предлагался корпус дневниковых записей с XVIII по XXI века, богатый набор кинотропов с сайта TV Tropes, массив статей региональной прессы, а также тысячи принтов футболок, коллекция мемов и огромное количество метаданных фанфиков по вселенной Гарри Поттера.
Главной задачей хакатона был получить максимум удовольствия от совместной работы с данными, и участники с этим справились. Вот как описывают событие его участники: “Дружелюбие и скорее командный, чем соревновательный, дух хакатона побуждали людей формировать команды примерно так: «Привет, я социолог, у меня есть идеи». – «Супер, я программист, давай с идеями ко мне»”.
За 8 часов работы участникам удалось немного интересного. Например, как выяснила одна из команда, популярность мема не связана с “неприличностью” его содержания. Другие участники исследовали отражение феминистской повестки в фанфиках, а кто-то пытался научить компьютер генерировать собственные мемы или писать тексты в духе дневниковых записей. Некоторые команды не ограничились исследованием и сделали полноценный прототип продукта. Так, участники, работавшие с кинотропами с сайта TV Tropes, придумывали на их основе рекомендательный алгоритм.
Победителя выбирали голосованием, каждый участник отдал голос самой запомнившейся презентации. Организаторам этого оказалось мало, и появилось еще несколько номинаций.
Большое количество участников и удаленный формат встречи не помешали третьему хакатону пройти неформальный, добрым и драйвовым, а участникам отлично провести время и научиться друг у друга полезным и интересным вещам.

Что ждет участников 4-го хакатона? 


На этот раз Центр цифровых гуманитарных исследований Вышки проводит его совместно с НИИ организации здравоохранения и медицинского менеджмента Департамента здравоохранения Москвы и изданием «Системный Блокъ».
У нас было несколько недоеденных с прошлого хакатона датасетов, корпус чтений законопроектов, сотни принтов футболок, 3000 мемов и целое море метаданных всех сортов и расцветок, а также дневники, корпус текстов из соцсетей о врачах от НИИ Здравоохранения и больше тысячи старых почтовых открыток в цифровой форме. Не то чтобы это был необходимый запас для нового хакатона, но если уж начали подготовку онлайн DH-хакатона ВШЭ, то становится трудно остановиться. Единственное что вызывало у нас опасение — это новый дистант. Нет ничего более беспомощного, безответственного и испорченного, чем идеи людей, готовящихся к новой затяжной самоизоляции. Мы знали, что 13 ноября мы перейдем от идей к делу.

Цели и задачи хакатона :

Мы делаем хакатон, потому что нам это нравится и нам интересно цифровое в гуманитарном. Мы хотим познакомить исследователей из разных областей знания друг с другом и дать им возможность поработать вместе, а новичкам показать, какие данные бывают в гуманитарных исследованиях и что можно с ними сделать. Наша главная цель — исследовательская: мы хотим поискать в данных интересные закономерности, которые что-то говорят о современных культуре/медиа/обществе. А вторая цель — расширение комьюнити людей, интересующихся применением IT в гуманитарных науках. 
⚠️ Важно: у нас нет и никогда не было цели устроить контест по программированию. Нам интересно исследовать данные и делиться результатами в атмосфере сотрудничества.

Датасеты :

  • Оцифрованная коллекцию почтовых открыток «Пишу тебе». Более 1000 открыток расшифрованы и снабжены метаданными.
  • Корпус дневниковых записей, собранный проектом «Прожито». Вы получите большую таблицу (сотни тысяч записей) с текстами и метаданными. Самые ранние дневники велись в XVIII веке, самые поздние — в XXI-м, но большая часть относится к XX столетию.
  • Тексты о врачах от НИИ здравоохранения.
  • Корпус эволюции законопроектов.
  • Корпус интервью проекта «Народная история России».
  • Коллекция мемов  с imgflip.
  • Коллекция принтов на футболках. Вы получите 3000 изображений футболок из очень популярного интернет-магазина.