Dataudtrækning er en stor del af arbejdet med nye og innovative projekter. Men hvordan får du fingrene i big data fra hele internettet?
Manuel datahøstning er udelukket. Det er for tidskrævende og giver ikke nøjagtige eller altomfattende resultater. Men mellem specialiseret webskrabningssoftware og et websteds dedikerede API, hvilken rute sikrer den bedste datakvalitet uden at ofre integritet og moral?
Hvad er webdatahøstning
Dataopsamling er processen med at udtrække offentligt tilgængelige data direkte fra online websteder. I stedet for kun at stole på officielle informationskilder, såsom tidligere undersøgelser og undersøgelser foretaget af større virksomheder og troværdige institutioner, datahøstning giver dig mulighed for at tage datahøstning i egen regning hænder.
Alt du behøver er et websted, der offentligt tilbyder den type data, du leder efter, et værktøj til at udtrække det og en database til at gemme dem.
Det første og sidste trin er ret ligetil. Faktisk kan du vælge et tilfældigt websted via Google og gemme dine data i et Excel -regneark. Udtræk af data er, hvor tingene bliver vanskelige.
Holde det lovligt og etisk
Med hensyn til lovlighed, så længe du ikke går efter black-hat-teknikker for at få fingrene i dataene eller overtræder webstedets privatlivspolitik, er du klar. Du bør også undgå at gøre noget ulovligt med de data, du høster, såsom ubegrundede marketingkampagner og skadelige apps.
Etisk dataopsamling er en lidt mere kompliceret sag. Først og fremmest bør du respektere webstedsejerens rettigheder over deres data. Hvis de har standarder for udelukkelse af robotter i nogle eller alle dele af deres websted, skal du undgå det.
Det betyder, at de ikke ønsker, at nogen skal skrabe deres data uden eksplicit tilladelse, selvom de er offentligt tilgængelige. Derudover bør du undgå at downloade for meget data på én gang, da det kan gå ned på webstedets servere og kunne få dig til at markere som en DDoS -angreb.
Webskrabning er så tæt på at tage spørgsmål om datahøstning i egne hænder. De er den mest tilpassede mulighed og gør dataudtrækningsprocessen enkel og brugervenlig, samtidig med at du får ubegrænset adgang til hele et websteds tilgængelige data.
Webskrabningsværktøjereller webskrabere, er software udviklet til dataudtrækning. De findes ofte i datavennlige programmeringssprog som Python, Ruby, PHP og Node.js.
Webskrabere indlæser og læser automatisk hele webstedet. På den måde har de ikke kun adgang til data på overfladeniveau, men de kan også læse et websteds HTML-kode samt CSS- og Javascript-elementer.
Du kan indstille din skraber til at indsamle en bestemt type data fra flere websteder eller instruere den i at læse og kopiere alle data, der ikke er krypteret eller beskyttet af en Robot.txt -fil.
Webskrabere arbejder gennem proxyer for at undgå at blive blokeret af hjemmesidens sikkerhed og anti-spam og anti-bot tech. De bruger proxyservere for at skjule deres identitet og maskere deres IP -adresse til at se ud som almindelig brugertrafik.
Men vær opmærksom på, at for at være helt skjult, mens du skraber, skal du indstille dit værktøj til at udtrække data med en meget langsommere hastighed - en, der matcher en menneskelig brugers hastighed.
Brugervenlighed
På trods af at de er stærkt afhængige af komplekse programmeringssprog og biblioteker, er webskrabningsværktøjer lette at bruge. De kræver ikke, at du er en programmerings- eller datavidenskabelig ekspert for at få mest muligt ud af dem.
Derudover forbereder webskrabere dataene til dig. De fleste webskrabere konverterer automatisk dataene til brugervenlige formater. De samler det også til pakker, der kan downloades, og som er nemme at downloade.
API Data Extraction
API står for Application Programming Interface. Men det er ikke et dataudtrækningsværktøj så meget som det er en funktion, som websted og softwareejere kan vælge at implementere. API'er fungerer som en mellemmand, så websteder og software kan kommunikere og udveksle data og information.
I dag har de fleste websteder, der håndterer enorme mængder data, en dedikeret API, såsom Facebook, YouTube, Twitter og endda Wikipedia. Men mens en webskraber er et værktøj, der giver dig mulighed for at gennemse og skrabe de mest fjerntliggende hjørner af et websted for data, er API'er struktureret i deres udtræk af data.
Hvordan fungerer API -dataudtrækning?
API'er beder ikke dataopsamlere om at respektere deres privatliv. De håndhæver det i deres kode. API'er består af regler der bygger struktur og sætter begrænsninger for brugeroplevelsen. De styrer den type data, du kan udtrække, hvilke datakilder der er åbne for høst, og typen af hyppighed af dine anmodninger.
Du kan tænke på API'er som et websteds eller apps specialfremstillede kommunikationsprotokol. Det har visse regler at følge og skal tale sit sprog, før du kommunikerer med det.
Sådan bruges en API til dataudtrækning
For at bruge en API har du brug for et anstændigt niveau af viden på det forespørgselssprog, webstedet bruger til at bede om data ved hjælp af syntaks. Størstedelen af websteder bruger JavaScript Object Notation, eller JSON, i deres API'er, så du har brug for nogle for at skærpe din viden, hvis du vil stole på API'er.
Men det ender ikke der. På grund af de store datamængder og de forskellige mål, folk ofte har, sender API'er normalt rå data. Selvom processen ikke er kompleks og kun kræver en forståelse på begynderniveau af databaser, skal du konvertere dataene til CVS eller SQL, før du kan gøre noget med det.
Heldigvis er det ikke helt dårligt at bruge en API.
Da de er et officielt værktøj, der tilbydes af webstedet, behøver du ikke bekymre dig om at bruge en proxyserver eller få din IP -adresse blokeret. Og hvis du er bekymret for, at du måske krydser nogle etiske grænser og skrotdata, du ikke måtte, giver API'er dig kun adgang til de data, ejeren ønsker at give.
Afhængigt af dit nuværende færdighedsniveau, dine målwebsteder og dine mål skal du muligvis bruge både API'er og webskrabningsværktøjer. Hvis et websted ikke har en dedikeret API, er brug af en webskraber din eneste mulighed. Men websteder med en API-især hvis de opkræver betaling for dataadgang-gør det ofte umuligt at skrabe ved hjælp af tredjepartsværktøjer.
Billedkredit: Joshua Sortino/Unsplash
Overvejer du at købe en Android -tablet? Her er grunde til at overveje alternative tabletter plus et par tabletanbefalinger.
Læs Næste
- Teknologi forklaret
- Programmering
- Big Data
- Datahøstning
- Web-udvikling
Anina er freelance teknologi- og internetsikkerhedsforfatter på MakeUseOf. Hun begyndte at skrive inden for cybersikkerhed for 3 år siden i håb om at gøre det mere tilgængeligt for den almindelige person. Lyst til at lære nye ting og en enorm astronomi -nørd.
Abonner på vores nyhedsbrev
Tilmeld dig vores nyhedsbrev for tekniske tips, anmeldelser, gratis e -bøger og eksklusive tilbud!
Klik her for at abonnere