Skip to content

Открытые данные: первый действительно спорный случай

Три года назад, в первых обсуждениях open data условные «чиновники» часто говорили: вот раскроем данные, и случится что-то плохое. Особые опасения всегда вызывали маршруты общественного транспорта в реальном времени. А мы всегда отвечали: мухахаха, что там может случиться. Если нечно плохое и произойдет, то причиной будет утечка из коммерческих или государственных информационных систем, где хранятся персональные данные.

Ну вот, не то что бы совсем плохое (пока все живы, маньяк с бензопилой не выследил по этим датасетам место жительства любимой баристы из старбакса, пастора не разоблачили как частого клиента стрип-клуба), но случилось.

Нью-Йорк раскрыл в отличном качестве данные о 173 миллионах поездках на городских такси. С GPS координатами стартовых и конечных точек, временем, анонимизированными (и быстро деанонимизированными общественностью) номерам машин и номера медальонов, стоимость поездки и размер оплаты, количество пассажиров. Примерно так:

6B111958A39B24140C973B262EA9FEA5,D3B035A03C8A34DA17488129DA581EE7,VTS,5,,2013-12-03 15:46:00,2013-12-03 16:47:00,1,3660,22.71,-73.813927,40.698135,-74.093307,40.829346,

173 миллиона раз.

Data-энтузиасты начали крутить датасет: какова средняя скорость такси в Нью-Йорке? Средний размер чаевых? Количество пассажиров? С умопомрачительной скоростью собрали красивую визуализацию — только посмотрите «Один день из жизни такси».

Один день из жизни такси

Все были очень счастливы, пока не обнаружили, что водитель с id CFCD208495D565EF66E7DFF9F98764DA за день проезжает несколько тысяч миль. Сначала казус приписали ошибке в самих данных, но оказалось, что это — ошибка хэш-функции MD5, которой шифровали номера машин. Деанонимизация заняла около часа машинного времени, теперь датасет раскрывает маршруты всех таксистов Нью-Йорка.

Блогеры с богатым воображением сконструировали несколько злодейских сценариев использования датасета: как выявить место жительства всех посетителей стрип-клубов, поиск геев и анархистов, разоблачение неверных супругов, преследование знаменитостей и другие варианты вторжения в частную жизнь. На самом деле, все не так просто — GPS сигнал не 100% точен и люди далеко не всегда выходят из такси прямо около своего дома, большая часть жителей мегаполиса живут в многоквартирных домах, но направление мысли интересное. Тем более, что есть много других данных — данные переписи населения, карты недвижимости, плюс коммерческие базы контор типа Axiom.

Владельцы собственных хороших наборов данных могут получить дополнительное удовольствие. Представьте себе, что в вашем распоряжении CRM крупного отеля, где хранится, в том числе, информация о времени чек-аута всех гостей. Хм. Даже в камерном исполнении этот номер может быть интересным: представьте себе, что у скучающего консьержа есть доступ к данным системы безопасности крупного офисного центра, откуда люди выходят по карточкам доступа.

Что сейчас надо сделать сообществу — так это выработать общую публичную позицию, которая не даст потопить open data под предлогом «мы же говорили, что это опасно».

Для дата-гиков:
скачать архив по частям
покрутить таблицы в BigQuery

Похожие статьи

  • Alexey Medvedev

    «Все были очень счастливы, пока не обнаружили, что водитель с id CFCD208495D565EF66E7DFF9F98764DA за день проезжает несколько тысяч миль. Сначала казус приписали ошибке в самих данных, но оказалось, что это — ошибка хэш-функции MD5, которой шифровали номера машин. Деанонимизация заняла около часа машинного времени, теперь датасет раскрывает маршруты всех таксистов Нью-Йорка.»

    Про это поподробнее можно. Что за ошибка? Как раскрыли? Как раскрыли остальные номера машин?

  • http://www.gov-gov.ru Екатерина Аксенова

    Посмотрите, пожалуйста, статью человека, который это и сделал https://medium.com/@vijayp/of-taxis-and-rainbows-f6bc289679a1

  • Alexander Erlikh

    Ключевое отличие в том, что такси — не совсем общественный транспорт. Бог с ним с такси, откройте всем данные по автобусам.

Shares