Utilstrækkelig data er ofte et af de største tilbageslag for de fleste datavidenskabelige projekter. At vide, hvordan man indsamler data til ethvert projekt, du vil påbegynde, er dog en vigtig færdighed, du skal tilegne dig som dataforsker.

Dataforskere og maskinlæringsingeniører bruger nu moderne dataindsamlingsteknikker til at tilegne sig flere data til træningsalgoritmer. Hvis du planlægger at gå i gang med dit første datalogi- eller maskinindlæringsprojekt, skal du også være i stand til at få data.

Hvordan kan du gøre processen let for dig selv? Lad os se på nogle moderne teknikker, du kan bruge til at indsamle data.

Hvorfor har du brug for flere data til dit datalogiprojekt

Maskinindlæringsalgoritmer afhænger af data for at blive mere nøjagtige, præcise og forudsigelige. Disse algoritmer trænes ved hjælp af datasæt. Træningsprocessen ligner lidt for første gang at lære et lille barn et objekts navn og derefter lade dem identificere det alene, når de næste ser det.

Mennesker har kun brug for et par eksempler for at genkende et nyt objekt. Det er ikke tilfældet for en maskine, da den har brug for hundreder eller tusinder af lignende eksempler for at blive fortrolig med et objekt.

instagram viewer

Disse eksempler eller træningsobjekter skal komme i form af data. En dedikeret maskinlæringsalgoritme løber derefter igennem det datasæt kaldet et træningssæt - og lærer mere om det for at blive mere præcist.

Det betyder, at hvis du ikke leverer nok data til at træne din algoritme, får du muligvis ikke det rigtige resultat i slutningen af ​​dit projekt, fordi maskinen ikke har tilstrækkelige data til at lære af.

Så det er nødvendigt at få tilstrækkelige data for at forbedre nøjagtigheden af ​​dit resultat. Lad os se nogle moderne strategier, du kan bruge til at opnå det nedenfor.

1. Skrabning af data direkte fra en webside

Webskrabning er en automatiseret måde at hente data fra internettet. I sin mest basale form kan webskrabning omfatte kopiering og indsættelse af elementerne på et websted i en lokal fil.

Webskrabning indebærer imidlertid også at skrive specielle scripts eller bruge dedikerede værktøjer til at skrabe data fra en webside direkte. Det kan også involvere mere dybtgående dataindsamling ved hjælp af Applikationsprogrammeringsgrænseflader (API'er) som Serpstack.

Tegn nyttige data fra søgeresultater med Serpstack API

Med serpstack API kan du nemt hente oplysninger fra resultatsiderne fra Google og andre søgemaskiner.

Selvom nogle mennesker mener, at skrabning på nettet kan føre til tab af intellektuel ejendom, kan det kun ske, når folk gør det ondsindet. Webskrabning er lovligt og hjælper virksomheder med at træffe bedre beslutninger ved at indsamle offentlig information om deres kunder og konkurrenter.

Relaterede: Hvad er webskrabning? Sådan indsamles data fra websteder

For eksempel kan du skrive et script til at indsamle data fra onlinebutikker for at sammenligne priser og tilgængelighed. Selvom det måske er lidt mere teknisk, kan du også indsamle rå medier som lydfiler og billeder over internettet.

Se eksemplet på nedenstående kode for at få et glimt af webskrabning med Pythons smuksuppe4 HTML-parserbibliotek.

fra bs4 import BeautifulSoup
fra urllib.request import urlopen
url = "Indtast den fulde URL på målwebsiden her"
targetPage = urlopen (url)
htmlReader = targetPage.read (). dekode ("utf-8")
webData = BeautifulSoup (htmlReader, "html.parser")
udskriv (webData.get_text ())

Før du kører eksempelkoden, skal du installere biblioteket. Opret et virtuelt miljø fra din kommandolinje og installer biblioteket ved at køre pip installer beautifulsoup4.

2. Via webformularer

Du kan også udnytte onlineformularer til dataindsamling. Dette er mest nyttigt, når du har en målgruppe af mennesker, du vil indsamle dataene fra.

En ulempe ved at sende webformularer er, at du måske ikke indsamler så mange data, som du vil. Det er ret praktisk til små datavidenskabelige projekter eller tutorials, men du kan komme ud for begrænsninger, der prøver at nå et stort antal anonyme mennesker.

Selvom der findes betalte online dataindsamlingstjenester, anbefales de ikke til enkeltpersoner, da de for det meste er for dyre - undtagen hvis du ikke har noget imod at bruge nogle penge på projektet.

Der er forskellige webformularer til indsamling af data fra mennesker. En af dem er Google Forms, som du kan få adgang til ved at gå til forms.google.com. Du kan bruge Google Forms til at indsamle kontaktoplysningerdemografiske data og andre personlige oplysninger.

Når du først har oprettet en formular, er alt hvad du skal gøre, at sende linket til din målgruppe via mail, SMS eller hvad som helst tilgængeligt middel.

Google Forms er dog kun et eksempel på populære webformularer. Der er mange alternativer derude, der også udfører fremragende dataindsamlingsjob.

Du kan også indsamle data via sociale medier som Facebook, LinkedIn, Instagram og Twitter. At få data fra sociale medier er lidt mere teknisk end nogen anden metode. Det er helt automatiseret og involverer brugen af ​​forskellige API-værktøjer.

Sociale medier kan være vanskelige at udtrække data fra, da de er relativt uorganiserede, og der er en enorm mængde af dem. Korrekt organiseret kan denne type datasæt være nyttigt i datavidenskabelige projekter, der involverer online sentimentanalyse, markedstendensanalyse og online branding.

For eksempel er Twitter et eksempel på en datakilde på sociale medier, hvor du kan samle en stor mængde datasæt med dens tweepy Python API-pakke, som du kan installere med pip install tweepy kommando.

For et grundlæggende eksempel ser kodeblokken til udpakning af Twitter-startside Tweets sådan ud:

importer tweepy
import til
myAuth = tweepy. OAuthHandler (indsæt forbruger-nøgle her, indsæt forbruger-hemmelig nøgle her)
auth.set_access_token (indsæt access_token her, indsæt access_token_secret her)
godkende = tweepy. API (myAuth)
target_tweet = api.home_timeline ()
for mål i target_tweet:
udskrive (target.text)

Du kan besøge docs.tweepy.org websted for at få adgang til tweepy dokumentation for flere detaljer om, hvordan du bruger den. For at bruge Twitters API skal du ansøge om en udviklerkonto ved at gå til developer.twitter.com internet side.

Facebook er en anden stærk social medieplatform til indsamling af data. Det bruger et specielt API-slutpunkt kaldet Facebook Graph API. Denne API giver udviklere mulighed for at indsamle data om specifikke brugeres adfærd på Facebook-platformen. Du kan få adgang til Facebook Graph API-dokumentationen på developers.facebook.com for at lære mere om det.

En detaljeret forklaring af indsamling af sociale medier med API ligger uden for denne artikels anvendelsesområde. Hvis du er interesseret i at finde ud af mere, kan du tjekke hver platforms dokumentation for at få dybdegående viden om dem.

Ud over at skrive scripts til at oprette forbindelse til et API-slutpunkt, indsamler data fra sociale medier tredjepartsværktøjer som f.eks Skrabeekspert og mange andre er også tilgængelige. De fleste af disse webværktøjer har dog en pris.

4. Indsamling af eksisterende datasæt fra officielle kilder

Du kan også indsamle allerede eksisterende datasæt fra autoritative kilder. Denne metode indebærer at besøge officielle databanker og downloade bekræftede datasæt fra dem. I modsætning til webskrabning og andre muligheder er denne mulighed hurtigere og kræver ringe eller ingen teknisk viden.

Datasættene for disse typer kilder er normalt tilgængelige i CSV-, JSON-, HTML- eller Excel-formater. Nogle eksempler på autoritative datakilder er Verdensbank, UNdataog flere andre.

Nogle datakilder kan gøre aktuelle data private for at forhindre offentligheden i at få adgang til dem. Deres arkiver er dog ofte tilgængelige til download.

Flere officielle datasætkilder til dit maskinindlæringsprojekt

Denne liste skal give dig et godt udgangspunkt for at få forskellige typer data til at arbejde med i dine projekter.

  • EU-portal for åbne data
  • Kaggle datasæt
  • Google datasættesøgning
  • Data Hub
  • Register over åbne data på AWS
  • Det Europæiske Regeringsagentur - Data og kort
  • Microsoft Research Open Data
  • Awesome Public Datasets Repository på GitHub
  • Data. Gov: Hjemmet for den amerikanske regerings åbne data

Der er mange flere kilder end dette, og omhyggelig søgning vil belønne dig med data, der er perfekte til dine egne datavidenskabelige projekter.

Kombiner disse moderne teknikker for bedre resultater

Dataindsamling kan være kedelig, når de tilgængelige værktøjer til opgaven er begrænsede eller svære at forstå. Mens ældre og konventionelle metoder stadig fungerer godt og i nogle tilfælde er uundgåelige, er moderne metoder hurtigere og mere pålidelige.

I stedet for at stole på en enkelt metode har en kombination af disse moderne måder at indsamle dine data på, potentialet til at give bedre resultater.

E-mail
5 Data Analytics-softwareværktøjer, du hurtigt kan lære

Ønsker du at komme ind i dataanalyse? Her er nogle værktøjer, du bør lære.

Relaterede emner
  • Programmering
  • Python
  • Big Data
  • Maskinelæring
  • Datahøstning
  • Dataanalyse
Om forfatteren
Idowu Omisola (45 artikler udgivet)

Idowu brænder for alt smart tech og produktivitet. På fritiden leger han med kodning og skifter til skakbrættet, når han keder sig, men han elsker også at bryde væk fra rutinen en gang imellem. Hans lidenskab for at vise folk vejen rundt om moderne teknologi motiverer ham til at skrive mere.

Mere fra Idowu Omisola

Abonner på vores nyhedsbrev

Deltag i vores nyhedsbrev for tekniske tip, anmeldelser, gratis e-bøger og eksklusive tilbud!

Et trin mere !!!

Bekræft din e-mail-adresse i den e-mail, vi lige har sendt dig.

.