Søgemaskiner som Google er en del af det, der gør internettet så stærkt. Med et par tastetryk og et klik på en knap vises de mest relevante svar på dit spørgsmål. Men har du nogensinde undret dig over, hvordan søgemaskiner fungerer? Webcrawlere er en del af svaret.
Så hvad er en webcrawler, og hvordan fungerer det?
Hvad er en webcrawler?
Når du søger efter noget i en søgemaskine, skal motoren hurtigt scanne millioner (eller milliarder) websider for at vise de mest relevante resultater. Webcrawlere (også kendt som edderkopper eller søgemaskinebots) er automatiserede programmer, der "gennemsøger" internettet og samler oplysninger om websider på en let tilgængelig måde.
Ordet "crawling" refererer til den måde, webcrawlere krydser internettet. Webcrawlere er også kendt som "edderkopper". Dette navn stammer fra den måde, de gennemsøger internettet - ligesom hvordan edderkopper kravler på deres spindelvæv.
Webcrawlere vurderer og kompilerer data på så mange websider som muligt. De gør dette, så dataene er let tilgængelige og søgbare, hvorfor de er så vigtige for søgemaskiner.
Tænk på en webcrawler som den redaktør, der udarbejder indekset i slutningen af bogen. Indeksets opgave er at informere læseren om, hvor i bogen hvert nøgleemne eller sætning vises. På samme måde opretter en webcrawler et indeks, som en søgemaskine bruger til hurtigt at finde relevante oplysninger om en søgeforespørgsel.
Hvad er søgeindeksering?
Som vi har nævnt, er søgeindeksering sammenlignelig med at kompilere indekset bag i en bog. På en måde er søgeindeksering som at oprette et forenklet kort over internettet. Når nogen stiller en søgemaskine et spørgsmål, kører søgemaskinen det gennem deres indeks, og de mest relevante sider vises først.
Men hvordan ved søgemaskinen hvilke sider der er relevante?
Søg indeksering fokuserer primært på to ting: teksten på siden og metadataene på siden. Teksten er alt, hvad du ser som læser, mens metadataene er oplysninger om den side, der er indtastet af sideopretteren, kendt som "metatags". Metatagsene indeholder ting som sidebeskrivelse og metatitel, der vises i søgning resultater.
Søgemaskiner som Google indekserer al tekst på en webside (undtagen visse ord som “the” og “a” i nogle tilfælde). Når der derefter søges efter et udtryk i søgemaskinen, søger det hurtigt indekset efter den mest relevante side.
Hvordan fungerer en webcrawler?
En webcrawler fungerer som navnet antyder. De starter på en kendt webside eller URL og indekserer hver side på denne URL (for det meste anmoder webstedsejere søgemaskiner om at gennemgå bestemte webadresser). Da de støder på hyperlinks på disse sider, udarbejder de en "to-do" -liste over sider, som de vil gennemgå næste gang. Webcrawleren fortsætter dette på ubestemt tid og følger særlige regler om, hvilke sider der skal gennemsøges, og hvilke der skal ignoreres.
Webcrawlere gennemsøger ikke hver side på internettet. Faktisk anslås det, at kun 40-70% af internettet er blevet indekseret i søgning (hvilket stadig er milliarder af sider). Mange webcrawlere er designet til at fokusere på sider, der menes at være mere "autoritative". Autoritativ siderne passer til en håndfuld kriterier, der gør dem mere tilbøjelige til at indeholde høj kvalitet eller populære Information. Webcrawlere skal også konsekvent besøge sider, når de opdateres, fjernes eller flyttes.
En sidste faktor, der styrer, hvilke sider en webcrawler vil gennemgå, er robots.txt -protokollen eller robots eksklusion -protokol. En websides server vil være vært for en robots.txt -fil, der angiver reglerne for enhver webcrawler eller andre programmer, der får adgang til siden. Filen vil udelukke bestemte sider fra at blive gennemgået, og hvilke links crawlen kan følge. Et formål med robots.txt -filen er at begrænse den belastning, som bots lægger på webstedets server.
For at forhindre en webcrawler i at få adgang til bestemte sider på dit websted, kan du tilføje "disallow" -tagget via robots.txt -fil eller tilføj noindex metatag til den pågældende side.
Hvad er forskellen mellem kravling og skrabning?
Webskrabning er brugen af bots til at downloade data fra et websted uden dette websteds tilladelse. Ofte bruges webskrabning af ondsindede årsager. Webskrabning tager ofte hele HTML -koden fra bestemte websteder, og mere avancerede skrabere vil også tage CSS- og JavaScript -elementerne. Webskrabningsværktøjer kan bruges til hurtigt og nemt at kompilere oplysninger om bestemte emner (f.eks. en produktliste), men kan også vandre ind grå og ulovlige områder.
Webcrawling er derimod indeksering af oplysninger på websteder med tilladelse, så de let kan vises i søgemaskiner.
Webcrawler -eksempler
Hver større søgemaskine har en eller flere webcrawlere. For eksempel:
- Google har Googlebot
- Bing har Bingbot
- DuckDuckGo har DuckDuckBot.
Større søgemaskiner som Google har specifikke bots til forskellige fokus, herunder Googlebot -billeder, Googlebot -videoer og AdsBot.
Hvordan påvirker webcrawling SEO?
Hvis du vil have din side til at blive vist i søgemaskineresultater, skal siden være tilgængelig for webcrawlere. Afhængigt af din websideserver vil du måske allokere en bestemt gennemsøgningsfrekvens, hvilke sider crawlen skal scanne, og hvor meget pres de kan lægge på din server.
Grundlæggende vil du have, at webcrawlerne finpudser sider, der er fyldt med indhold, men ikke på sider som takbeskeder, administrationssider og interne søgeresultater.
Information lige ved hånden
Brug af søgemaskiner er blevet en anden natur for de fleste af os, men alligevel har de fleste af os ingen idé om, hvordan de fungerer. Webcrawlere er en af hoveddelene i en effektiv søgemaskine og indekserer effektivt oplysninger om millioner af vigtige websteder hver dag. De er et uvurderligt værktøj for både ejere af websteder, besøgende og søgemaskiner.
Du tror måske, at programmører og webudviklere gør det samme arbejde, men det er langt fra sandheden. Her er de vigtigste forskelle mellem programmører og webudviklere.
Læs Næste
- Teknologi forklaret
- Websøgning
- Google søgning
- Søgetricks
Jake Harfield er freelance skribent med base i Perth, Australien. Når han ikke skriver, er han normalt ude i bushen og fotograferer lokalt dyreliv. Du kan besøge ham på www.jakeharfield.com
Abonner på vores nyhedsbrev
Tilmeld dig vores nyhedsbrev for tekniske tips, anmeldelser, gratis e -bøger og eksklusive tilbud!
Klik her for at abonnere