schegloff (schegloff) wrote,
schegloff
schegloff

Category:

Заработал datapult.info, или О вики-активности на разных языках

Полгода назад я бы откупорил ящик шампанского, а сейчас этой торжественной даты даже не заметил. Итак, проект датапульт вышел из альфа-тестирования и отныне является работающим веб-сервисом по созданию различных визуализаций. А вот у меня из-за новой работы нет даже времени им как следует воспользоваться...

К счастью, neo_der_tall подготовил неплохой датасет по активности разных народов в международной Википедии, и я могу проиллюстрировать возможности Пульта "малой кровью" (на чужих данных). Итак, Убога ли русская википедия? Поиграться с датасетом можно здесь - Википедия разноязычная, ну а я приведу несколько понравившихся мне картинок.

Во-первых, популярность википедии у разных народов (число зарегистрированных пользователей на 1 млн. говорящих на языке, включая тех, кто ни разу ничего не написал):



Русский язык (раскраска идет не по странам, а по носителям языка, поэтому посреди Африки имеется красное пятно - англоязычная (упс!) Нигерия) - полный аутсайдер. Лишний пример того, что русские после почти столетней дрессировки "сиди и не высовывайся" мало склонны делать добро соплеменникам - еще подумают, что боишься, и решат, что терпила.

Число статей (на 1 млн. говорящих):



Здесь уже сказывается советское наследие - хотя среди русских альтруистов и днем с огнем не сыщешь, но если уж кто нашелся, то он будет покультурнее среднеафриканского альтруиста. Поэтому число статей на 1 млн. вполне достойное, на уровне Бразилии.

И наконец, зависимость числа статей от числа активных пользователей:



Как видите, массовая культура - вопрос скорее числа, чем умения. Один супер-мега-гений не заменит (по числу охваченных тем) сотни середняков. Размеры кружочков отражают "глубину правки" статей; угадайте не заглядывая в первоисточник, какому языку принадлежит самый большой кружок болотного цвета :)

Ну а теперь краткая похвала всему проекту. Собрав датасет из 16 показателей, мы получаем возможность построить сотни визуализаций. Построение одной картинки к другой происходит в нашем датапульте за доли секунды, в отличие от многих других серверов ("толстый клиент", однако). Таким образом, появляется возможность разделить труд - одни собирают данные, другие их анализируют, что я и продемонстрировал на датасета по википедиям. Наш датапульт - своего рода википедия для данных!

P.S. Вот только есть у меня подозрение, что русские, как следует из рис.1, не слишком-то поторопятся делиться своими датасетами. Потому-то проект и называется - Simplest Way to Visualize, Store, and Publish Your Data Rows, а не "Лучшее место для хранения и визуализации Ваших данных".
Subscribe

  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 38 comments