22 авг. 2014 г.

Визуализация структуры библиотеки D3

maurizzzio сделал библиотеку PojoViz для визуализации связей внутри любых javascript объектов. Теперь можно визуально посмотреть как устроена любая js-библиотека. Вот например, структура любимой мною D3.


18 авг. 2014 г.

Какой почтой пользуются российские чиновники — работаем с PostgreSQL

Главный драйвер открытых данных в России Иван Бегтин опубликовал на hubofdata.ru статистику электронных адресов госслужащих. Всего 344695 записей. Давайте посмотрим, какие домены у них самые популярные.

Для этого загрузим tsv-файл с данными в базу PostgreSQL:
create table gosmails (regnum varchar,name varchar,regcode varchar,okogu_code varchar,okogu_name varchar,okved varchar,email_domain varchar,orgtype varchar,headagency_regnum varchar,headagency_name varchar); 
copy gosmails from '/Users/Kostia/Downloads/allorgs_29072014.tsv' DELIMITERS '' HEADER QUOTE '"' CSV;
И выведем список доменов, сгруппированных по имени и отсортированных по количеству:
select email_domain,count(email_domain) as num from gosmails group by email_domain order by num desc limit 100; 
Как видим (ниже), с трехкратным отрывом от яндекса лидирует mail.ru — более боловины всех записей. Ничего удивительного :-)
Но на пятом месте неожиданно всплывает gmail.com!
Кто же им пользуется?
select name, count(name) as num from gosmails where email_domain='gmail.com' group by name order by num desc limit 100; 
В основном — школы и детские сады (таблица ниже). Но изредка встречаются и другие, в том числе налоговые инспеции :-)

А у тебя есть ссылки на интересные датасеты? Давай их поанализируем? ;-)

11 авг. 2014 г.

Как хорошо уметь писать... В смысле — кодить :-)

Круче всего наблюдать, как твоя программа добывает данные. Например, автоматом узнает у Яндекса геокоординаты ста тыщ адресов. Просто смотреть в экран и наблюдать за бегущими в терминале циферками — это завораживает! А потом пойти спать с приятным чувством: программист спит — служба идет.

Или я решил загрузить все свои фото на Фликр, после того как Марисса Меер дала каждому по бесплатному терабайту. Но из-за выбранного образа жизни интернет у меня не всегда быстрый. И из-за этого существующие upload-клиенты с задачей справлялись плохо. Я пару месяцев мучился, прежде чем додумался написать программу на питоне. Всего 30 строк! Запускаешь ее, смотришь как бегут строки в терминале, и настроение улучшается -‿-

Или еще проще. Нынешний провайдер не дает скачивать торренты на нормальной скорости. А нужно 30 гигов данных выкачать. "17 недель до завершения" — показывает торрент-клиент. Ок. Арендую linux-сервер на амазоне (год бесплатно!), выкачиваю туда эти 30 гигов (за полчаса!) и за день закачиваю себе на компьютер обычным wget. А потом еще сутки смотрю, как PostgreSQL обрабатывает эти данные, попутно обращаясь к серверам Bing и Google, чтобы узнать высоты полумиллиона точек на карте — это круче любых наркотиков!

И это все не считая возможности создавать любые интерактивные визуализации данных, вроде карты возраста зданий Москвы...

К чему я это все? Учитесь программировать, если еще не умеете! Всего чуть больше года назад я тоже ничего этого не умел :-)

8 авг. 2014 г.

Карта мира в topojson как ее видит Правительство России

В финале одной из работ с визуализацией данных на карте мира заказчик попросил поправить карту мира. А именно — добавить к России Крым, сделать границу между Грузией и Абхазией с Южной Осетией и включить обратно в Сербию Косово.

Во всем интернете не нашлось ни одной карты в векторном формате не то, что с Абхазией, а даже с Крымом.

Было бы здорово, если каждое правительство сразу после признания какой-то новой страны или изменения своей территории выпускало новую карту в json'е или любом другом формате.

А так пришлось править. Если кому понадобиться: github.com/meule/maps


 

© 2010 – Константин Варик (разработка презентаций и необычные и удобные яркие гамаки).