Reklame

Hvad ville du sige, hvis jeg fortalte dig, at du har værktøjerne til rådighed til at udføre banebrydende, jordskødende forskning? Det gør du godt, og jeg viser dig hvordan.

Regeringer, akademiske institutioner og ikke-kommercielle forskningsorganisationer offentliggør tabeller fulde af data til det offentlige rum. Uden nogen bruger disse oplysninger vil den sande værdi aldrig blive kendt. Desværre har få mennesker indsigt, færdigheder eller værktøjer til at tage dataene og foretage interessante sammenhænge mellem tilsyneladende uforbundet information.

Baggrund

Meget af den forskning, jeg laver til min egen blog, involverer at grave gennem det, der er kendt som usynlig web De 12 bedste søgemaskiner til at udforske det usynlige webGoogle eller Bing kan ikke søge efter alt. For at udforske det usynlige web skal du bruge disse specielle søgemaskiner. Læs mere , for at afsløre data, der er frigivet til offentligheden, men skjult for søgemaskiner De 5 mest avancerede søgemaskiner på Internettet Læs mere

instagram viewer
inde i en online database. Dette er dyb web TorSearch sigter mod at være Google for det dybe webTor er en skjult service og en del af Deep Web. TorSearch er en ny anonym søgemaskine, som dens grundlægger Chris MacNaughton ønsker at gøre "Google of Tor". Læs mere , og det er fyldt med værdifulde data. Meget ofte støder jeg på websider, der bare er fyldt med nogle af de mest værdifulde data om emner, der kører spektret fra folketællingsdata til epidemiologiske undersøgelser af sjældne sygdomme. Jeg har konstant nye ideer til, hvordan man prøver og korrelerer de forskellige datakilder ved hjælp af forskellige værktøjer - og et af de mest værdifulde værktøjer, jeg har fundet, er webforespørgslen inde i Microsoft Excel.

Finde interessante datakorrelationer

Det, jeg vil vise dig i dag, er et eksempel på, hvordan du kan bruge Excel Web Queries til at hente data fra forskellige websteder og kortlægge dem mod hinanden for at søge efter potentielle sammenhænge mellem data.

Måden at starte en øvelse som denne er at komme med en interessant hypotese. For eksempel - for at holde tingene interessante her - vil jeg tilfældigt postulere den skyrocketing af autismesatser i USA er forårsaget af enten vaccinationsinokulationer eller den stigende tilstedeværelse af elektromagnetiske felter i og omkring børn, såsom celle telefoner. Det er en skør hypotese, som du kan finde på de fleste af konspirationsteoriers websteder, men det er det, der gør dette sjovt. Så lad os komme i gang, skal vi?

Åbn først Excel, gå over til data-menupunktet, og find ikonet “Fra web” i menubåndet.

web-query-excel1

Dette er, hvad du vil bruge til at importere de forskellige datatabeller fra de mange websteder derude, der har offentliggjort dem.

Import af webdata til Excel

Så i gamle dage skulle du prøve at kopiere dataene fra den tabel på en webside, indsætte dem i Excel og derefter håndtere alle de vanvittige formateringsproblemer, der er involveret i at gøre det. Total besvær, og mange gange er det bare ikke værd at hovedpine. Nå, med Excel-webspørgsmål, er disse dage væk. Før du kan importere dataene, skal du selvfølgelig Google dig rundt på Internettet for at finde de data, du har brug for i tabelformat. I mit tilfælde fandt jeg et websted, der havde offentliggjort Institut for Uddannelsesstatistik for antallet af amerikanske offentlige skoleelever, der blev identificeret som autisme. Der var et dejligt bord med tal fra 1994 helt igennem 2006.

Så du skal bare klikke på “Fra web”, indsætte websidens URL i feltet for forespørgselsadresse og derefter rulle ned ad siden, indtil du ser den gule pil ved siden af ​​tabellen med de data, du vil importere.

web-query-excel2

Klik på pilen, så den bliver et grønt markering.

web-query-excel3

Til sidst fortæller Excel, hvilket felt du vil indsætte tabeldataene inde i dit nye regneark.

web-query-excel4

Så - Voila! Data flyder automatisk direkte ind i dit regneark.

web-query-excel5
Så med en tendens med offentlige skoles autismesatser fra 1996 - 2006 på plads, er det tid til at gå ud og søge efter vaccination og brug af mobiltelefoner.

Heldigvis fandt jeg hurtigt tendenser for mobiltelefonabonnenter i USA fra 1985 til 2012. Fremragende data til netop denne undersøgelse. Igen brugte jeg Excel Web Query-værktøjet til at importere den tabel.

web-query-excel6

Jeg importerede tabellen til et rent, nyt ark. Derefter opdagede jeg vaccinationstendenser for procentdel af skolebørn, der var vaccineret mod forskellige sygdomme. Jeg importerede den tabel ved hjælp af værktøjet Webforespørgsel til et tredje ark. Så til sidst havde jeg tre ark med de tre tabeller fyldt med de tilsyneladende ikke-forbundne data, jeg havde opdaget på Internettet.

web-query-excel8

Det næste trin er at bruge Excel til at analysere dataene og forsøge at identificere eventuelle sammenhænge. Det er her et af mine foretrukne dataanalyseværktøjer spiller - PivotTable.

Analyse af data i Excel med pivottabellen

Det er bedst at oprette din PivotTable i et helt nyt, tomt ark. Du vil bruge guiden til det, du skal gøre. For at aktivere guiden PivotTable i Excel skal du trykke på Alt-D på samme tid, indtil der vises et meddelelsesvindue. Slip derefter disse knapper, og tryk på “P” -tasten. Derefter ser du guiden dukke op.

web-query-excel10

I det første vindue i guiden vil du vælge "Flere konsolideringsområder", som giver dig mulighed for at vælge dataene fra alle de ark, du har importeret. Ved at gøre dette kan du konsolidere alle disse tilsyneladende ikke-relaterede data til en, kraftig drejelig. I nogle tilfælde skal du muligvis massere nogle af dataene. For eksempel måtte jeg rette “År” -feltet i autismetabellen, så det viste “1994” i stedet for "1994-95" - hvilket gør det bedre med tabellerne på de andre ark, som også havde det primære år Mark.

web-query-excel11

Det fælles felt mellem data er det, du har brug for for at prøve at korrelere information, så husk det, når du jager på nettet efter dine data.

Når PivotTable er færdig, og du har vist alle de forskellige dataværdier i en tabel, er det tid til at lave en visuel analyse for at se, om der er nogen åbenbar forbindelse, der springer ud over dig.

Visualisering af data er nøglen

At have et antal numre i en tabel er godt, hvis du er økonom, men den hurtigste og nemmeste måde at have at "aha!" øjeblik, hvor du prøver at finde forbindelser som en nål i en høstak, er via diagrammer og grafer. Når du har din PivotChart på plads med alle de datasæt, du har samlet, er det tid til at oprette din graf. Normalt vil en linjegraf gøre det bedst, men det afhænger af dataene. Der er tidspunkter, hvor et søjlediagram fungerer meget bedre. Prøv at forstå, hvilken slags data du ser på, og hvilken form for sammenligning der fungerer bedst.

I dette tilfælde ser jeg på data over tid, så en linjegraf er virkelig den bedste måde at se tendenser gennem årene. Kortlægning af autismesatser (grøn) mod nedskaleret vaccinationsrate (mørkeblå), vandkopper-vacciner (lyseblå) og brug af mobiltelefon (lilla), dukkede pludselig en ulig korrelation i dette prøvesæt af data, som jeg spillede med.

web-query-excel12

Mærkeligt nok matchede tendensen i brug af mobiltelefoner fra 1994 til 2006 næsten perfekt stigningen i autismesatser i samme periode. Mens mønsteret var helt uventet, er det et perfekt eksempel på, hvordan sammenbinding af interessante data kan afsløre fascinerende kundeemner - giver dig større indsigt og motivation til at fortsætte med at skubbe fremad og søge efter flere data, der kan styrke din yderligere hypotese.

Én korrelation som den ovenfor viser ikke noget. Der er masser af tendenser, der stiger over tid - mønsteret kan være tilfældighed, men det kan også være en vigtig ledetråd i din løbende søgen efter flere data på Internettet. Heldigvis har du et kraftfuldt værktøj kaldet Excel Web Queries, der gør denne søgen bare en smule lettere.

Fotokredit: Kevin Dooley via photopincc

Ryan har en BSc-grad i elektroteknik. Han har arbejdet 13 år inden for automatisering, 5 år inden for it, og er nu en applikationsingeniør. En tidligere administrerende redaktør for MakeUseOf, han har talt på nationale konferencer om datavisualisering og har været vist på nationalt tv og radio.