Webskrabning indebærer indsamling af information i form af data fra websteder eller sider. Selvom din måske ikke er en bevidst handling, har du også skrabet internettet på en eller anden måde, mens du samler information. Men det er normalt subtilt.

Webskrabning eller skærmskrabning er generelt en målrettet handling, og fagfolk automatiserer designet for at få enorme data. Uanset om ved at kopiere tekster på et websted manuelt, ved hjælp af dedikerede værktøjer eller skrive webskrabningsskripter, rammer webskrabere undertiden hårdt på et websted ved at stille flere anmodninger på én gang.

Men mens mange virksomheder nu udnytter webskrabning for at skabe konkurrencemæssige fordele, er det faktisk lovligt?

Hvilke websteder skal og skal du ikke skrabe?

Internettet er en pulje af information, der giver folk adgang til gamle og realtidsdata. Webskrabning eller skærmskrabning har eksisteret i et stykke tid nu. Men hvor meget skal du bruge det, og hvilke websteder kan du skrabe?

Nogle websteder er strenge med webcrawlere eller skærmskrabere og blokerer dem helt. Så det er åbenlyst åbenlyst, at du ikke skal skrabe sådanne websteder. Men folk gør det stadig.

instagram viewer

Desværre er der næppe noget andet sådanne websteder kan gøre for at stoppe det udover at lappe deres smuthuller.

Før du skraber et websted, skal du ideelt set kontrollere, om det tillader gennemsøgning eller ej. Normalt kan du finde ud af det ved at kontrollere webstedets robots.txt-fil. Du kan gøre dette ved at skrive "[website URL] /robots.txt".

En robots.txt angiver typisk regler for forskellige crawlere eller brugeragenter. Disse regler varierer dog afhængigt af det involverede websted. Mens nogle websteder tillader gennemgang på alle sider, angiver nogle de sider, som en bot kan gennemgå, og nogle blokerer crawlere direkte.

Et websted, der blokerer for alle brugeragenter fra at gennemgå alle sider, sætter typisk følgende regler:

bruger-agent: *
Tillad ikke: /

En robots.txt-fil, der blokerer for alle bots fra at gennemgå bestemte mapper eller sider, ser typisk sådan ud:

bruger-agent: *
Tillad: / URL til side 1
Tillad: / URL til side 2

Hvis robots.txt ikke tillader den side, du vil gennemgå, kan du sandsynligvis skrabe den. Ellers skal du komme tilbage eller søge administratorens samtykke. De giver dig muligvis adgang.

Derudover angiver nogle websteder eksplicit, om de tillader gennemgang eller ej i deres brugsbetingelser. Nogle angiver endda dette også øverst på deres robots.txt. Tjek altid det også for at være sikker på at du gør det rigtige.

Sådan misbruges webskrabning

Så hvis du har modtaget spam-e-mails eller SMS fra websteder eller personer, du aldrig har leveret med dine personlige oplysninger, så er du sandsynligvis blevet skrabet et eller andet sted på en eller anden måde. Og for det meste er det via et af dine sociale mediehåndtag.

Når det er sagt, er webskrabning undertiden mere end blot at indsamle data, der gengiver til frontenden. Hvis det bruges skadeligt, kan det resultere i lækage af personlige og klassificerede oplysninger.

Mens de fleste sociale medieplatforme rynker panden, kryber bots stadig adgang til folks profiler, og deres kontaktoplysninger bliver lækket og skrabet.

For eksempel er Facebook rapporteret at have sårbarheder, der lækkede brugernes kontaktoplysninger tidligere, selvom brugerne holder dem private.

Tilsvarende led LinkedIn for nylig et sikkerhedsbrud, der resulterede i lækage af personlige data tilhører over 500 millioner konti. Følgelig resulterede denne sårbarhed i deling af mange e-mail-adresser og telefonnumre uden samtykke fra profilejerne.

Er det ulovligt at skrabe et websted?

Der har aldrig været en konklusion om lovligheden af ​​webskrabning. I stedet er fokus på, hvordan en crawler arbejder fra sag til sag, og hvad de bruger de indsamlede data til at opnå.

Så snarere end at konkludere på dets lovlighed er skrabning ulovligt, når det udføres ondsindet. Men hvis det gøres med omtanke, er det ikke ulovligt.

Men som forventet synes der at være en strengere politik vedrørende skrabning og brug af sociale mediedata, da brugernes privatliv er så vigtigt. Det hele koger dog stadig ned til, hvordan folk skraber dataene.

Det Internet & Social Media Law Blog analyserede sagen om hiQ Labs, et dataskrabningsselskab, der vandt en retssag mod LinkedIn i 2019 efter at have forsøgt at blokere hiQ Labs fra at skrabe offentligt tilgængelige LinkedIn-brugeres data.

Med hiQ Labs, der hævder, at Computer Fraud and Abuse Act (CFAA) kun forbyder uautoriseret adgang, dommen bekræftede, at LinkedIn's data var offentligt tilgængelige, så enhver, der skraber dem, gjorde det, fordi de er tilgængelig.

Desuden brugte hiQ Labs kun de skrabede data til at levere analyseløsninger til virksomheder - så de kan træffe bedre rekrutteringsbeslutninger.

I modsætning hertil Facebook sagsøgte for nylig Chrome-udvidelsesudviklere der skrabet Facebook-brugeres profiler uden deres samtykke.

Tilsvarende er en copycat-site blev sagsøgt af Facebook til at skrabe flere Instagram-brugeres profiloplysninger og derefter bruge disse til at oprette kloner. Ifølge denne rapport gik Facebook derefter videre for at opnå et permanent retsforbud mod gerningsmanden.

Dette er et par tilfælde, hvor folk måske har brugt webskrabning ulovligt. De nævnte virksomheder indsamlede data fra Facebook-brugere bedragerisk uden brugernes samtykke. Så det overtrådte fortrolighedspolitikker.

Så selvom skrabning på nettet kan frustrere det websted, det får data fra, forhindrer ingen generel regel i øjeblikket folk i at få det, de ønsker, så længe de ikke overtræder internetlovene direkte.

Er webskrabning synonymt med hacking?

Der er et par myter omkring webskrabning. En af disse er troen på, at skrabning af et websted betyder, at du har hacket det. Selvom hacking i sidste ende kan føre til skrabning af data, er påstanden om, at selve udtrykket betyder hacking af et websted, ikke sandt.

Webskrabning kan involvere brugen af dedikerede krybnings- eller skrabeværktøjer, API'er (Application Programming Interfaces) eller scripts til webskrabning for at få gengivne data fra et websted. I modsætning til hacking kompromitterer det hverken det websted, det skraber eller forstyrrer brugernes oplevelse.

Relaterede: Hvad er webskrabning? Sådan indsamles data fra websteder

Så mens hacking involverer uautoriseret adgang, normalt til en websides database, er webskrabning kun målrettet mod data, der allerede er synlige i frontenden. Selvom folk kan bruge webskrabning ondsindet, er det stadig ikke synonymt med hacking.

Derudover er, i modsætning til webskrabning, bevidst og uetisk hacking ulovlig.

Hvad er positive ved webskrabning?

Webskrabning har mange positive, og endda nogle teknologivirksomheder tilbyder nu deres data gratis via API'er. Disse oplysninger er normalt ikke nok til at vurdere forretningstendenser og træffe beslutninger.

Så virksomheder får nu flere data ved at skrabe internettet for at forbedre praksis og øge salget. Derudover fodrer dataforskere maskinindlæringsalgoritmer med data indsamlet via skærmskrabning.

Sådanne data kan være billeder, der bruges til billedgenkendelse, almindelige tekster til sentimentanalyse eller direkte produktdata til markedsinformation og analyse af forbrugeradfærd.

Relaterede: Unikke måder at få datasæt til dit maskinindlæringsprojekt

Så webskrabning er endnu mere nyttigt, for hvis du har adgang til oplysninger, som din konkurrent ikke gør, kan du slå dem.

Mens nogle sider rynker panden på webskrabere, er nogle, endda e-handelstjenester, ligeglad med om du skraber deres data eller ej. Webgiganter som eBay og Salesforce startede deres API i 2000 og gav programmører adgang til offentlige data for første gang.

Skal du faktisk skrabe internettet?

Vi har konstateret, at webskrabning ikke er ulovligt, når det gøres på den rigtige måde. Men hvad du gør med de data, du skraber, er også et problem. Så i stedet for at misbruge dette, skal du bruge det til at få mere indsigt, der hjælper dig og andre med at træffe informerede beslutninger.

Imidlertid giver webskrabning som en færdighed dig adgang til store klumper af internetdata, som kan hjælpe dig eller din virksomhed med at holde sig over forretningsniche. Som datavidenskab udvider det endda dit anvendelsesområde og forbedrer din kodning og tekniske færdigheder.

For eksempel er Python et af programmeringssprogene, der hjælper dig med let at skrabe et websted med dets smukke suppebibliotek eller Scrapy-ramme.

E-mail
Skrab et websted med denne smukke suppe Python-tutorial

Interesseret i webskrabning? Sådan skrabes et websted efter indhold og mere med det smukke suppe Python-bibliotek.

Læs Næste

Relaterede emner
  • Sikkerhed
  • Programmering
  • Onlinesikkerhed
  • Webskrabning
Om forfatteren
Idowu Omisola (71 artikler offentliggjort)

Idowu brænder for alt smart tech og produktivitet. På fritiden leger han med kodning og skifter til skakbrættet, når han keder sig, men han elsker også at bryde væk fra rutinen en gang imellem. Hans passion for at vise folk vejen rundt om moderne teknologi motiverer ham til at skrive mere.

Mere fra Idowu Omisola

Abonner på vores nyhedsbrev

Deltag i vores nyhedsbrev for tekniske tip, anmeldelser, gratis e-bøger og eksklusive tilbud!

Et trin mere !!!

Bekræft venligst din e-mail-adresse i den e-mail, vi lige har sendt dig.

.