22 авг. 2014 г.

Визуализация структуры библиотеки D3

maurizzzio сделал библиотеку PojoViz для визуализации связей внутри любых javascript объектов. Теперь можно визуально посмотреть как устроена любая js-библиотека. Вот например, структура любимой мною D3.


18 авг. 2014 г.

Какой почтой пользуются российские чиновники — работаем с PostgreSQL

Главный драйвер открытых данных в России Иван Бегтин опубликовал на hubofdata.ru статистику электронных адресов госслужащих. Всего 344695 записей. Давайте посмотрим, какие домены у них самые популярные.

Для этого загрузим tsv-файл с данными в базу PostgreSQL:
create table gosmails (regnum varchar,name varchar,regcode varchar,okogu_code varchar,okogu_name varchar,okved varchar,email_domain varchar,orgtype varchar,headagency_regnum varchar,headagency_name varchar); 
copy gosmails from '/Users/Kostia/Downloads/allorgs_29072014.tsv' DELIMITERS '' HEADER QUOTE '"' CSV;
И выведем список доменов, сгруппированных по имени и отсортированных по количеству:
select email_domain,count(email_domain) as num from gosmails group by email_domain order by num desc limit 100; 
Как видим (ниже), с трехкратным отрывом от яндекса лидирует mail.ru — более боловины всех записей. Ничего удивительного :-)
Но на пятом месте неожиданно всплывает gmail.com!
Кто же им пользуется?
select name, count(name) as num from gosmails where email_domain='gmail.com' group by name order by num desc limit 100; 
В основном — школы и детские сады (таблица ниже). Но изредка встречаются и другие, в том числе налоговые инспеции :-)

А у тебя есть ссылки на интересные датасеты? Давай их поанализируем? ;-)

11 авг. 2014 г.

Как хорошо уметь писать... В смысле — кодить :-)

Круче всего наблюдать, как твоя программа добывает данные. Например, автоматом узнает у Яндекса геокоординаты ста тыщ адресов. Просто смотреть в экран и наблюдать за бегущими в терминале циферками — это завораживает! А потом пойти спать с приятным чувством: программист спит — служба идет.

Или я решил загрузить все свои фото на Фликр, после того как Марисса Меер дала каждому по бесплатному терабайту. Но из-за выбранного образа жизни интернет у меня не всегда быстрый. И из-за этого существующие upload-клиенты с задачей справлялись плохо. Я пару месяцев мучился, прежде чем додумался написать программу на питоне. Всего 30 строк! Запускаешь ее, смотришь как бегут строки в терминале, и настроение улучшается -‿-

Или еще проще. Нынешний провайдер не дает скачивать торренты на нормальной скорости. А нужно 30 гигов данных выкачать. "17 недель до завершения" — показывает торрент-клиент. Ок. Арендую linux-сервер на амазоне (год бесплатно!), выкачиваю туда эти 30 гигов (за полчаса!) и за день закачиваю себе на компьютер обычным wget. А потом еще сутки смотрю, как PostgreSQL обрабатывает эти данные, попутно обращаясь к серверам Bing и Google, чтобы узнать высоты полумиллиона точек на карте — это круче любых наркотиков!

И это все не считая возможности создавать любые интерактивные визуализации данных, вроде карты возраста зданий Москвы...

К чему я это все? Учитесь программировать, если еще не умеете! Всего чуть больше года назад я тоже ничего этого не умел :-)

8 авг. 2014 г.

Карта мира в topojson как ее видит Правительство России

В финале одной из работ с визуализацией данных на карте мира заказчик попросил поправить карту мира. А именно — добавить к России Крым, сделать границу между Грузией и Абхазией с Южной Осетией и включить обратно в Сербию Косово.

Во всем интернете не нашлось ни одной карты в векторном формате не то, что с Абхазией, а даже с Крымом.

Было бы здорово, если каждое правительство сразу после признания какой-то новой страны или изменения своей территории выпускало новую карту в json'е или любом другом формате.

А так пришлось править. Если кому понадобиться: github.com/meule/maps


11 июля 2014 г.

Зум на картах d3js

Во всем интернете не нашел ни одного рабочего примера карты на d3js с зумом. Чтобы zoom одновременно работал и от скролла мышки и от кнопок + – :-( Единственное рабочее решение — функция Ильи Бояндина в ответе на Stackoverflow

Спасибо, Илья!

22 июля 2013 г.

Visualize this!

Мне нравятся методы работы издательства Манн, Иванов и Фербер. Выпуская специализированную книгу, они рассылают её экспертам в отрасли на рецензию. Мне досталась "Искусство визуализации в бизнесе. Как представить сложную информацию простыми образами" Нейтана Яу. И я согласился, поскольку читал ее в оригинале и мне было интересно посмотреть перевод. 

Я, правда, не понял, почему оригинальное название "Visualize this" перевели как "Исскуство визуализации в бизнесе". Книга будет интересна не только бизнесу, но и журналистам, и блоггерам, и наверно даже дизайнерам-фрилансерам.

Эту книгу можно разделить на две части. Половина этой книги устареет через пару лет, поскольку описывает существующие программные инструменты для визуализации данных и рассказывает, как с ними работать. А программы сейчас меняются очень быстро. Я вообще считаю, что инструкции к программам не должны печататься на бумаге, а должны быть либо встроены в сами программы, либо работать поверх этих программ. Берегите лес :-)
Печатать же можно более общие знания, принципы и примеры, которые останутся актуальными ещё долго. И вторая часть книги как раз и содержит полезную информацию об отношениях в данных и базовых способах и принципах их визуализаций. Знание этих принципов не сделает вас сразу профессионалами, но позволит вам не делать плохую работу. 

Ещё в книге очень много интересных примеров. Многие из них Нейтан Яу публиковал у себя в блоге, и они почти всегда рождали у меня свои идеи для визуализации.

Мне определенно было интересно освежить  свои знания о некоторых принципах и снова вдохновиться отличными примерами. Но самая большая польза от книги лично для меня была в другом.  Она сподвигла меня начать программировать. И помог мне в этом как раз "недостаток" книги — описание инструмента — как получить данные с определенного сайта с помощью языка программирования Python.

У меня была задача преобразовать 100 тысяч адресов в Санкт-Петербурге в геокоординаты для визуализации на карте. В книге был другой пример, но меня поразила простота, с которой несколько строк кода решают похожую задачу. В результате я потратил пару часов на установку Питона и на адаптацию примера из книги под свои цели. И получил огромное удовольствие, наблюдая как моя программа постепенно решает мою задачу. 100 тысяч адресов моя программа обрабатывала полчаса. Говорят, что именно столько длится оргазм у свиней :-)

Мне кажется, что это лучший способ использовать книгу: взять свою текущую задачу по визуализации данных или придумать её (просмотр примеров даст вам много идей) и читать те места книги, которые относятся к этой задаче. И постепенно её решать, получая удовольствие. Чтобы начать как раз хватит получаса ;-)

17 дек. 2012 г.

Мои книги по инфографике

Перед очередным расставанием сфотографировал большую часть моих книг по инфографике, визуализации данных и презентациям. И добавил ссылки на Озон и Амазон.

Получилась интерактивная фотография:

 

11 окт. 2012 г.

Модульная сетка для PowerPoint

Модульная сетка используется почти всеми дизайнерами. Все дизайнерские программы имеют встроенные инструменты для работы с модульной сеткой. Существуют различные шаблоны модульной сетки для разных областей.


 

© 2010 – Константин Варик (разработка презентаций и необычные и удобные яркие гамаки).