Skip to content

Ложь, страшная ложь и открытые данные

Lies, Damned Lies, and Open Data — неплохая статья с одним простым тезисом:

Борьба храбрых цифровых повстанцев за государственные открытые данные завершилась видимым успехом: порталы открытых данных есть и у Евросоюза, и у Саудовской Аравии, эксперты объявили невероятные суммы экономического эффекта от открытых данных, в хакатонах готовы участвовать толпы разработчиков, и где-то даже появляются полезные результаты. Но победа ложная. Раскрытие данных в любом формате — последний этап длинной цепочки. Все впились в раскрытие, потому что его относительно легко контролировать, но все решается на этапе сбора данных и методики их обработки. Власти, лоббисты, политики всегда управляли общественным мнением, манипулируя данными. Однако, теперь речь идет не только об общественном мнении, поскольку открытые данные имеют намного более глубокое применение, чем информация о средних надоях.

Хороший пример ситуации политической манипуляции данными: недавно Сенат штата Северная Каролина принял закон, согласно которому для прогнозирования уровня повышения моря должны использоваться только «исторические данные». Эксперты считают, что уровень моря к концу текущего столетия поднимется на 39 дюймов, новый закон велит ориентироваться на двенадцатидюймовый подъем, кто-то, кто занимается строительством в прибрежной зоне, оказался в большой выгоде (если правы ученые, то только до середины столетия). При этом, сами данные — хороши и могут быть совершенно идеально раскрыты, на пять звезд.

Сейчас во всех странах — и в России — принимается много норм, регулирующих раскрытие информации в формате open data. Новые законы и поправки к старым законам делают открытые данные обязанностью для чиновников, описывают форматы и сроки. Уже летом это все будет вменяться как обязательная часть работы. Но никакие документы нигде не описывают методики сбора данных, и уж тем более — подходы и отношение к статистическим моделям. Непонятно, как именно их можно регулировать и описывать. Но без проработки этой части борьба за открытость на уровне количества датасетов, их наименований, форматов — все равно, что бороться за чистоту выборов методом выбора оптимальной конфигурации избирательного участка и дизайна урны.

Похожие статьи

  • http://whatosm.textual.ru/ Ilya Zverev

    Ссылка на обсуждение у Максима Дубинина: http://answer-42.livejournal.com/129397.html

  • http://twitter.com/darkboutique Артем Геллер

    На мой взгляд критически важная сысль. Какие данные мы раскрываем, сколько в них правды и точности. А то наделают приложений…

Shares