Skip to content

Интересные ссылки: оцифровка больших архивов, журналистика данных

Блог МедиаПедиа опубликовал отличный материал о камбоджийской фабрике оцифровки. Речь идет о переводе в цифру всех выпусков газет с длинной историей — еженедельников, которые существуют десятки лет. Сходная задача стоит и перед государством, которому предстоит переделать в современный формат объемнейшие архивы.

Оцифровка газет – непростая задача, которая для многих может оказаться и вовсе непосильной. Бумажные страницы нужно разобрать, структурировать, сканировать, распознать текст, к ним нужно подобрать соответствующие теги, а полученную информацию правильно разложить, чтобы пользователям было удобно ею пользоваться. На подобный проект может уйти несколько лет.

По этому проекту приходится учитывать множество данных:

связи статей с другими статьями,
теги необходимы не только для самой статьи, но и для заголовков, подзаголовков и подписей,
тексты названий проверяются дважды, во избежание ошибок,
даже объявления и рекламные модули структуризируются и сопровождаются соответствующими тегами.

Почитайте, интересно. Там есть, кроме технологической, важная социальная составляющая.

И втоорой материал из МедиаПедии — перевод интервью Саймона Роджерса, который заведует в Гардиане блогом The Guardian Data Blog, важнейшим проектом, популяризирующим идею открытых государственных данных. Роджерс рассказывает, как цифры и голая информация становятся основой нового типа журналистики, журналистики данных.

Похожие статьи

Shares