Теория и практика графического представления данных — как построить интересные и понятные графики, диаграммы, схемы, делать эффективные презентации — визуализация информации
В последнее время я часто использую Tableau Public, чтобы покопаться в данных и показать какие-нибудь идеи. Возможности этого инструмента огромны (но тем не менее ограничены ;-).
С некоторых пор я заметил, что мне нужны данные, которые в принципе существуют, но в неструктурированном или полуструктурированном виде. И очень часть в Википедии.
Я спросил в группе LinkedIn Information Access and Search Professionals, как подступиться к Википедии. И Dupont Gérard из Франции посоветовал чудесный инструмент: DBpedia.org.
DBpedia представляет данные Википедии в структурированном виде и позволяет запрашивать их различными методами. Я использовал язык запросов SPARQL. Для не очень сложных запросов достаточно изучения примеров и какого-нибудь хорошего коротенького руководства.
Составляем SPARQL-запрос, немного редактируем полученную таблицу в Excel и визуализируем в Tableau Public.
Вот, например, интерактивная (чуть-чуть) карта всех* авиакатастроф, для которых в Википедии указаны координаты, с количеством жертв и типом самолёта. От вопроса до картинки — меньше часа**!
* Я ещё не разобрался до конца с данными из русскоязычной Википедии, похоже, что в DBpedia они ещё не до конца структурированы.
** Вопрос ещё нужно правильно поставить (причём, это самое важное — что и зачем мы хотим показать!). А картинку — додизайнить. Дизайн и правильная постановка вопроса занимают большую часть времени )
Ошибки в исходных данных кое-где находятся. Например, у рейса 007 Корейских авиалиний (сбитого у Сахалина Советами) правильные координаты, но вдвое больше человек на борту, чем в статье из ВП.
Та же фигня с суданским самолётом (рейс 109, над Суданом): в А-310 внезапно поместилось четыре сотни пассажиров. В соответствующей статье географических координат вообще нет.
Сразу четыре Локерби (Пан-Американ, 103), выстроенные квадратом, и опять в статье нет координат в карточке.
Хотя, наверное, координаты нужно искать не в карточке, а в правом верхнем углу страницы?
Впрочем тоже неясно: нет, скажем, Американ-191, потерявшего двигатель при взлёте в чикагском аэропорту. Координаты в уголке статьи есть и поля карточки вроде аккуратно заполнены.
3 коммент.:
Ошибки в исходных данных кое-где находятся. Например, у рейса 007 Корейских авиалиний (сбитого у Сахалина Советами) правильные координаты, но вдвое больше человек на борту, чем в статье из ВП.
Та же фигня с суданским самолётом (рейс 109, над Суданом): в А-310 внезапно поместилось четыре сотни пассажиров. В соответствующей статье географических координат вообще нет.
Сразу четыре Локерби (Пан-Американ, 103), выстроенные квадратом, и опять в статье нет координат в карточке.
Кстати, wikilink-и в подсказках везде битые.
Хотя, наверное, координаты нужно искать не в карточке, а в правом верхнем углу страницы?
Впрочем тоже неясно: нет, скажем, Американ-191, потерявшего двигатель при взлёте в чикагском аэропорту. Координаты в уголке статьи есть и поля карточки вроде аккуратно заполнены.
Иван, спасибо-спасибо!
Я, когда получше исследую особенности Dbpedia, напишу о них.
А линки — это уже Tableau Public )
Отправить комментарий