3 июл. 2012 г.

DBpedia+Tableau или Как показать на карте все авиакатастрофы

В последнее время я часто использую Tableau Public, чтобы покопаться в данных и показать какие-нибудь идеи. Возможности этого инструмента огромны (но тем не менее ограничены ;-).

С некоторых пор я заметил, что мне нужны данные, которые в принципе существуют, но в неструктурированном или полуструктурированном виде. И очень часть в Википедии.

Я спросил в группе LinkedIn Information Access and Search Professionals, как подступиться к Википедии. И Dupont Gérard из Франции посоветовал чудесный инструмент: DBpedia.org.

DBpedia представляет данные Википедии в структурированном виде и позволяет запрашивать их различными методами. Я использовал язык запросов SPARQL. Для не очень сложных запросов достаточно изучения примеров и какого-нибудь хорошего коротенького руководства.

Составляем SPARQL-запрос, немного редактируем полученную таблицу в Excel и визуализируем в Tableau Public.

Вот, например, интерактивная (чуть-чуть) карта всех* авиакатастроф, для которых в Википедии указаны координаты, с количеством жертв и типом самолёта. От вопроса до картинки — меньше часа**!



* Я ещё не разобрался до конца с данными из русскоязычной Википедии, похоже, что в DBpedia они ещё не до конца структурированы.

** Вопрос ещё нужно правильно поставить (причём, это самое важное — что и зачем мы хотим показать!). А картинку — додизайнить. Дизайн и правильная постановка вопроса занимают большую часть времени )

3 коммент.:

ivanpoukhkal комментирует...

Ошибки в исходных данных кое-где находятся. Например, у рейса 007 Корейских авиалиний (сбитого у Сахалина Советами) правильные координаты, но вдвое больше человек на борту, чем в статье из ВП.

Та же фигня с суданским самолётом (рейс 109, над Суданом): в А-310 внезапно поместилось четыре сотни пассажиров. В соответствующей статье географических координат вообще нет.

Сразу четыре Локерби (Пан-Американ, 103), выстроенные квадратом, и опять в статье нет координат в карточке.

Кстати, wikilink-и в подсказках везде битые.

ivanpoukhkal комментирует...

Хотя, наверное, координаты нужно искать не в карточке, а в правом верхнем углу страницы?

Впрочем тоже неясно: нет, скажем, Американ-191, потерявшего двигатель при взлёте в чикагском аэропорту. Координаты в уголке статьи есть и поля карточки вроде аккуратно заполнены.

Konstantin Varik комментирует...

Иван, спасибо-спасибо!
Я, когда получше исследую особенности Dbpedia, напишу о них.
А линки — это уже Tableau Public )

Отправить комментарий

 

© 2010 – Константин Варик (разработка презентаций и необычные и удобные яркие гамаки).