• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Открытые данные: новый рынок информационных услуг

15 июня в Высшей школе экономики прошел круглый стол, посвященный открытию массивов данных, собираемых государством. Организатором его, помимо ВШЭ, выступил российский региональный офис международного консорциума W3C.

Реализация национальных проектов открытия данных, как правило, ставит перед собой две цели. Первая, общественно-политическая — государство должно делиться информацией со своими гражданами. Эта цель на нынешнем технологическом уровне решается довольно легко. Главным предметом обсуждения на круглом столе стало достижение другой цели — превращение массивов данных, которые есть у государства, в продукт, пригодный для использования в экономике.

Открытие данных все чаще практикуется в развитых странах: IT-компании превращают анализ открытых данных в коммерческий продукт, который можно поставлять бизнесу, заинтересованному в углубленном понимании ситуации в той или иной сфере. Российские власти также признали важность этой деятельности — в президентском Указе от 7 мая 2012 года «Об основных мерах по совершенствованию системы государственного управления» говорится о необходимости начать публикацию открытых государственных данных к 15 июля 2013 года.

Открывая обсуждение, директор Регионального офиса W3C, заместитель директора Института информационных технологий ВШЭ Виктор Клинцов отметил, что государство — один из самых больших потенциальных генераторов данных в Сеть. Администрация США, к примеру, опубликовала на сегодня более миллиона набора данных. Это опубликовано не для «читателей», подчеркнул Клинцов, а для компьютеров, для сервисов, которые забирают эти данные и строят на их основе данные нового уровня.

Клинцов рассказал, что в мировой практике, при участии W3C, устоялись три основных набора регламентов при реализации проектов открытия данных. Во-первых, это регламенты публикаций. Они касаются того, кто должен публиковать данные, какая ответственность лежит на публикаторе, куда он должен «складывать» данные и с какой периодичностью. Вторая группа регламентов касается доступа к данным, лицензионной политики, сотрудничества с коммерческими структурами. Третий набор — регламенты эксплуатации хранилищ данных. Как правило, речь идет о структурах, которые обеспечивают паспортизацию данных, предоставление круглосуточного доступа к ним, должны заботиться о связывании и очистке данных. Клинцов призвал использовать эти наработки в российских условиях.

Заместитель директора департамента государственного регулирования в экономике Минэкономразвития (МЭР) РФ Олег Пак отметил, что именно министерство было инициатором включения в президентский Указ поручения о публикации открытых данных. Он отметил, что это позволит стимулировать реализацию коммерческих IT-проектов по созданию различных приложений на базе открытых данных. Особенно это актуально для сегмента малого и среднего бизнеса, потому что именно такие компании наиболее активно принимают участие в таких проектах. Но что еще более важно, в результате реализации тех приложений, которые будут разработаны на базе открытых данных, повысится качество и уровень жизни граждан.

Минэкономразвития, по словам Олега Пака, готовит соответствующие технические требования, разработку концепции использования открытых данных в России. В рамках этой концепции планируется разработать полностью всю методологию использования открытых данных в стране. Концепция должна стать своего рода дорожной картой для работы всех органов власти по реализации этого проекта.

Профессор Сёрен Ауэр (Sören Auer), координатор панъевропейского проекта LOD2 (Linked Open Data) по работе со связанными данными, рассказал о европейском опыте в использовании связанных данных. К данному моменту в Сети опубликовано 500 миллиардов фактов, которыми можно воспользоваться. Есть очень динамичные, глобальные производственные и научные сообщества. Например, Thomson Reuters, BBC в Великобритании публикуют и используют открытые данные. Возникают новые правительственные проекты. Один из примеров — DataDoc of UK в Великобритании. Европейский Союз планирует открыть большой портал в следующем месяце. Сёрен Ауэр подчеркнул, что его структура работает над организацией использования не только публичной, но также и служебной информации, насыщения ее метадатами, позволяющими улучшить использование этих сведений.

Заместитель директора Департамента государственной политики в области информационных технологий и координации информатизации Минкомсвязи России Павел Пугачев рассказал о конкретных примерах успешного использования открытых данных на примере IT-компании в США. Ее программисты используют данные лечебных учреждений (обезличенные, дабы не нарушать врачебной тайны) по вспышкам заболеваний, по количеству больных, перерабатывают их и продают крупным фармацевтическим фирмам. Те очень заинтересованы в такой информации, поскольку она позволяет им выстраивать логистику и тактику спроса-предложения. Павел Пугачев предложил определить приоритеты, наиболее интересные рынку виды данных, чтобы сосредоточить усилия на их первоочередном раскрытии.

Как отмечалось в ходе обсуждения, работа над подготовкой открытых данных показала, что российские ведомства всю свою работу до сих пор строили ради внутренних нужд, исходя из внутреннего понимания эффективности их использования. При этом раскрытие информации, которое до сих пор происходило, ориентировано на человеческое восприятие, разноформатно, несогласованно, редко может быть использовано в интересах бизнеса и непригодно для массированного компьютерного анализа. При этом только в Москве существует 4 тысячи порталов органов власти и организаций.

Директор по экспертно-аналитической работе Высшей школы экономики Андрей Жулин предложил создать на базе ВШЭ центр компетенций по открытым данным, который мог бы проводить собственные исследования по этой тематике. Иван Бегтин, пионер использования открытых данных в России, а ныне директор направления Linked Data российского офиса W3C, добавил, что в развитых странах история с публикацией открытых данных тоже начиналась с активности не правительств, а частных лиц. Они собирали разрозненную информацию и публиковали ее на своих порталах, приводя в пригодный для машинной обработки вид. Сегодня порталы открытых данных существуют в 104 странах и регионах.

Как подчеркнул Иван Бегтин, очень важно, чтобы данные были организованы по принципам LOD, позволяющим проводить автоматическую обработку больших объемов разнородной информации. Для чего ведомствам необходимо выработать единый стандарт публикации данных.

В связи с этим член Advisory Board консорциума W3C Даниэль Хлатки призвал не ждать, пока появятся все стандарты, чтобы можно было начинать «правильную» публикацию: «Опубликуйте то, что у вас есть. Так, как можете, любым способом. Хорошо, плохо ли, с ошибками, некрасиво, даже если  95 % этих данных будет нерелевантным, плохо структурированным и так далее. Может быть, там почти не будет мета-данных и информация окажется малоиспользуемой. Я хочу сказать, что необходимо набирать обороты. Если будет 5 % полезной информации, это уже будет начало».

Поддержал эту точку зрения Максим Дубинин (проекты OpenStreetMap, GIS-Lab): «Слой пользователей, культура использования не появится, пока не будут открытые данные в достаточно большом количестве». Он поделился опытом в сфере геоданных. Когда стало ясно, что невозможно дождаться государственных подвижек в этой области, появились проекты, в которых сами пользователи публикуют геоданные. Так, в проекте OpenStreetMap приняло участие более 12 тысяч человек, а во всем мире в подобных разработках участвуют 600 тысяч человек. В итоге некоторые государственные организации начинают использовать данные, создаваемые «неофициальными» пользователями.

Ситуация с открытыми данными в России будет представлена Даниэлем Хлатки на европейском симпозиуме по открытым данным, который пройдет в Брюсселе на этой неделе. А Виктор Клинцов предложил участникам круглого стола собраться на очередную встречу осенью этого года.

Антон Светлов, специально для новостной службы портала ВШЭ

 

Вам также может быть интересно:

Отличники и двоечники на мировой арене. Государства сравнили по умению вести политику

Политологи ВШЭ оценили государственную состоятельность (способность государства воплощать решения во внутренней и внешней политике) 142 стран. На основе собранных данных исследователи создали и протестировали индекс госсостоятельности, определили восемь ее моделей и построили общий международный рейтинг.

Педофилов вычислит компьютер

Педофилов просеют сквозь решётки понятий. Сотрудники Международной научно-учебной лаборатории интеллектуальных систем и структурного анализа НИУ ВШЭ помогли голландской полиции создать компьютерную программу, способную вычислять педофилов в интернете, и даже определять степень их потенциальной опасности.

Решетки понятий помогут в борьбе с раком

Алгебра против рака. Математики НИУ ВШЭ разработали модель, которая позволит повысить эффективность лечения при остром лимфобластном лейкозе у детей. Анализируя персональные данные больных с этим диагнозом, ученые смогли рассчитать, какой из методов терапии предпочтительнее для той или иной группы пациентов. Теперь слово за медиками, им предстоит интерпретировать полученный результат и дать по нему клиническое заключение. Положительный результат будет означать еще один шаг в развитии персонализированной медицины в России.

Исследователи ВШЭ посчитали экономический эффект от публикации открытых данных

По расчетам исследователей НИУ ВШЭ, совокупный экономический эффект от использования приложений на основе открытых данных в сфере общественного транспорта Москвы может составить более 58 млрд. рублей в год.

Искусственный интеллект помогает бороться с работорговлей

В современном мире люди, попадающие в рабство, не закованы в кандалы, а их похитители не выглядят как работорговцы. Выявить преступников, занимающихся торговлей людьми, совсем непросто. Международная группа исследователей совместно с учеными департамента анализа данных и искусственного интеллекта НИУ ВШЭ помогли полицейским разработать информационную систему, которая позволяет бороться с современной торговлей людьми.

Кузьминов: механизм обратной связи по законопроектам нуждается в доработке

Ярослав Кузьминов предложил усовершенствовать электронную систему раскрытия информации о нормативных правовых актах, разрабатываемых федеральными органами исполнительной власти. Свои предложения он изложил на заседании Правительственной комиссии по координации деятельности открытого правительства.

«Большие данные» помогут врачам выбрать способ лечения

За 20 лет, с начала перехода современной медицины на цифровой формат, накоплен огромный объем данных, которые практически не используются. Анализ этих данных и извлечение из них новой логики управления — одно из наиболее востребованных направлений прикладной математики, считает профессор кафедры анализа данных и искусственного интеллекта НИУ ВШЭ, преподаватель Медицинской школы при Гарвардском университете Олег Пьяных.

Министерства и ведомства не торопятся открывать свои данные

11 федеральных органов исполнительной власти, вопреки распоряжению правительства, не начали работу в формате открытых данных, свидетельствует мониторинг, проведенный ВШЭ. Дальнейший план действий в этом направлении обсуждался на совместном заседании комиссии по координации деятельности Открытого правительства и Совета по открытым данным.

Онлайн-опросы как источник данных о населении

13 февраля Научно-учебная группа ВШЭ «Методология онлайн-исследований в социальных науках» провела круглый стол на тему «Онлайн-опросы как источник данных о населении РФ: наступает ли конец «большой эпохи» личных интервью?».

Открытые данные Рунета малопригодны для пользователя

Чиновники активно взялись за публикацию открытых данных о своей деятельности. Однако количество появившейся информации на порталах госорганов не отражает ее качество. Использовать открытые данные для обработки и анализа не всегда представляется возможным.