schegloff (schegloff) wrote,
schegloff
schegloff

Дооткрывая "открытые" данные, или О тех, кто работает

До получения первых результатов просто следил за новой инициативой ivbeg, а теперь хочу публично поддержать.

Итак, существует вполне реальная проблема. Многие вроде бы открытые данные публикуются сегодня в Сети в форматах, серьезно затрудняющих их использование (предельный случай - сканы бумажных документов, как например Указы Президента РФ). Еще большее число данных доступно в Сети в виде запросных систем (база ЕГРЮЛ, база недобросовестных поставщиков, и т.п.), позволяющих найти отдельные записи, но не дающих возможности провести анализ всей совокупности информации (например, найти всех недобросовестных поставщиков Перми и посмотреть, когда и где они регистрировались).

С подачи ivbeg началась общественная работа по конвертации некоторых неудобных баз данных в более удобные форматы - путем написания парсеров-конвертеров. Обсуждения процесса - по ссылкам, первые результаты - здесь. Отмечу, что основным языком для парсеров пока что служит Python. Кто может и хочет присоединиться - прошу по ссылкам.

Ну а я скачал себе парсер по недобросовестным поставщикам, и сейчас буду его тестировать. Люблю иногда "скачать весь Интернет на дискетку" :)
Subscribe
  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 6 comments