Zjistěte Kompatibilitu Znamení Zodiac
Jak mohou novináři používat Geocommons k vytváření interaktivních map
Jiný
Před několika měsíci napsal John Keefe Poynter.org How To o používání shapefiles. Síla shapefile, napsal, je schopnost odkazovat na oblasti místo bodů.
Ale co když vaše data obsahují body (například adresy) a chcete mapovat regiony? Řekněme například, že máte adresy porušení životního prostředí a chcete ukázat, které okrsky Kongresu mají nejvíce porušení. Musíte najít způsob, jak tyto body spojit do obrazců. V tomto tutoriálu vysvětlím, jak na to.
Použijme příklad z organizace, pro kterou pracuji, Sunlight Foundation. Máme web s názvem Údaje o průhlednosti , kde si uživatelé mohou stáhnout data, z nichž některá zahrnují adresy. Jedním z takových datových souborů jsou údaje o porušení EPA. Přejděte na Transparency Data, klikněte na kartu „EPA“ a poté vyhledejte porušení mezi 1. červencem 2011 a 31. prosincem 2011. Transparency Data vrátí přibližně 1 300 záznamů. Kliknutím na obří tlačítko „Stáhnout data“ uložíte záznamy do počítače.
Jakmile tato data stáhneme, otevřeme je v tabulce. Uvidíte, že jeden ze sloupců obsahuje adresu porušení. (Všimněte si, že některé buňky v tomto sloupci obsahují více adres, zatímco jiné nemají žádné adresy. Pro naše účely odstraníme záznamy s více adresami nebo záznamy bez adres. Můžete se podívat na tento dřívější příběh, „Jak mohou novináři používat Excel k uspořádání dat pro příběhy“, pokud s tím potřebujete pomoc.)
Měli bychom také rozdělit adresu na jednotlivé části. Vytvořím nové sloupce pro město, stát a PSČ.
(Nápovědu k tomu najdete v jednom z mých dřívějších How To’s – „Jak mohou novináři používat regulární výrazy ke spárování řetězců textu“. Tip, moje hledání/nahrazení bylo hledat:
|_+_|a nahradit za:
|_+_|To zanechá některé chyby (jako jsou čísla apartmánů v poli města), které opravíme vyhledáním:
|_+_|a nahrazení:
|_+_|Po vyčištění dat je vrátíme zpět do naší tabulky. Poté tuto tabulku exportujeme jako .csv nebo textový soubor „hodnoty oddělené čárkou“, který vám poskytneme soubor, který vypadá takto .)
Nyní, abychom tyto adresy agregovali s okrsky Kongresu, použijeme jeden z mých oblíbených nástrojů: GeoCommons . Tento proces zahájíme exportem výše uvedené tabulky jako CSV nebo textového souboru „hodnoty oddělené čárkami“. Zde jsem zveřejnil ukázkový soubor . Poté tento CSV nahrajeme přímo do GeoCommons.
Po nahrání do GeoCommons se budeme řídit výzvami, dokud nás služba nepožádá o „pomoc s geolokací“ dat. Jsou nám dány dvě možnosti. Nejprve můžeme přidružit nebo spojit data s hraniční datovou sadou. Pokud bychom vybrali tuto možnost, potřebovali bychom hraniční data v tabulce. Taková data mohou zahrnovat názvy okresů nebo kódy FIPS, kódy okrsků Kongresu, sčítání lidu a podobně. Tato pole v našich datech nemáme.
Druhá možnost, „geokód na základě adresy nebo názvu místa“, přebírá informace o poloze, jako je adresa, a převádí je na zeměpisnou délku a šířku. Toto je možnost, kterou chceme vybrat.
V závislosti na záhlaví ve vašem souboru může GeoCommons automaticky rozpoznat některá pole umístění. V opačném případě budeme muset pomoci GeoCommons určit, která pole tvoří adresu. Chcete-li to provést, přejděte dolů na „adresu umístění“ a vyberte „upravit“. Zde vybereme „adresu ulice“. Totéž uděláme pro město, stát a PSČ. Poté klikněte na „Pokračovat“. (Poznámka, GeoCommons může geokódovat pouze až 5 000 adres na soubor.) Pokud chcete nebo potřebujete, můžete upravit i jiné typy dat polí.
Službě bude chvíli trvat, než dekóduje adresy a převede je na body zeměpisné šířky a délky. Na konci tohoto procesu nám GeoCommons dá vědět, jak dobře dokázal geolokalizovat adresy. V mém testu trvalo geokódování asi 10 minut. (Pokud nechcete čekat na geokódování vašeho souboru, můžete použít kopii mých dat, která je k dispozici tady .) Ke geokódování dat do zeměpisné šířky a délky můžete samozřejmě použít i jiné služby a poté nahrát CSV obsahující tato pole – kromě všech ostatních – do GeoCommons.
Dále využijeme jednu z nejlepších funkcí GeoCommons: její schopnost analyzovat data. Pokud přejdeme do naší nově geokódované datové sady, můžeme k těmto funkcím přistupovat kliknutím na tlačítko „analyzovat“ v pravém horním rohu stránky.
To přináší řadu možností. Měli byste strávit nějaký čas hraním s těmito nástroji, ale pro tento tutoriál vybereme druhý, „Agregace“. Ve výsledném dialogovém okně musíme vybrat sadu hranic. Objeví se okno a my vyhledáme „111th Congressional Districts“. Tam vybereme okresy, které jsem nahrál. Tyto okrsky jsou ve formě tvarových souborů, což je vektorová metoda popisu oblastí.
Zrušil jsem výběr „Zachovat prázdné hranice“, protože nechci zobrazovat okresy, které nemají žádná porušení.
GeoCommons nyní provede analýzu, která v mém případě trvala asi 20 minut. Výsledný soubor je umístěn tady .
Přestože můžete mapovat výslednou datovou sadu v GeoCommons, zjistil jsem, že mapy této služby jsou příliš omezující. Nemáte například plnou kontrolu nad tím, jak jsou formátovány informace v popisech mapy.
Z toho důvodu rád exportuji mapu z GeoCommons pomocí funkce „Stáhnout jako KML“. Soubor KML, který GeoCommons exportuje, obsahuje všechna data a také informace o hranicích. S tímto souborem se mohu obrátit na Google Fusion Tables, importovat KML a mít plnou kontrolu nad designem, stínováním, informačním oknem a dalšími. John Keefe to již popsal ve svém úvodu do shapefiles, takže nebudu pokrývat stejnou oblast.
I když Geocommons obvykle nepoužívám pro hotovou mapu, je to neocenitelný nástroj pro vytváření informativních a poutavých map, zejména při řešení hranic nebo oblastí.
Bavte se při objevování a podělte se o své zkušenosti s GeoCommons a mapováním v sekci komentářů. Máte-li další témata, která byste chtěli v této sérii pokrýt/řešit, dejte nám vědět.
Tento příběh je součástí Poyntera Hackeři/hackeři série představovat Jak na to které se zaměřují na to, co se mohou novináři naučit z nových trendů v technologii a nových technologických nástrojů.