Reklame
hvis du køre et websted 10 måder at oprette et lille og enkelt websted uden overdrevenWordPress kan være en overkill. Som disse andre fremragende tjenester beviser, er WordPress ikke alt sammen og afslutter oprettelsen af websteder. Hvis du vil have enklere løsninger, er der en række at vælge imellem. Læs mere , har du sandsynligvis hørt om en robots.txt-fil (eller "robottens ekskluderingsstandard"). Uanset om du har det eller ikke, er det tid til at lære noget om det, fordi denne enkle tekstfil er en vigtig del af dit websted. Det kan virke ubetydeligt, men du kan blive overrasket over, hvor vigtigt det er.
Lad os se på, hvad en robots.txt-fil er, hvad den gør, og hvordan du korrekt indstiller den til dit websted.
Hvad er en robots.txt-fil?
For at forstå, hvordan en robots.txt-fil fungerer, skal du vide lidt om søgemaskiner Hvordan fungerer søgemaskiner?For mange mennesker er Google internettet. Det er uden tvivl den vigtigste opfindelse siden selve Internettet. Og selvom søgemaskinerne har ændret sig meget siden, er de underliggende principper stadig de samme. Læs mere
. Den korte version er, at de sender "crawlere", som er programmer, der søger internettet for information. De gemmer derefter nogle af disse oplysninger, så de kan henvise folk til dem senere.Disse gennemsøgere, også kendt som "bots" eller "edderkopper", finder sider fra milliarder af websteder. Søgemaskiner giver dem retninger om, hvor de skal hen, men individuelle websteder kan også kommunikere med botterne og fortælle dem, hvilke sider de skal se på.
Det meste af tiden gør de faktisk det modsatte og fortæller dem, hvilke sider de har bør ikke se på. Ting som administrative sider, backend-portaler, kategori- og tag-sider og andre ting, som webstedsejere ikke ønsker skal vises på søgemaskiner. Disse sider er stadig synlige for brugere, og de er tilgængelige for alle, der har tilladelse (som ofte er alle).
Men ved at bede disse edderkopper om ikke at indeksere nogle sider, gør robots.txt-filen alle en fordel. Hvis du søgte efter “MakeUseOf” på en søgemaskine, vil du gerne have, at vores administrative sider vises højt i rankingen? Nej. Det ville ikke gøre nogen fordel, så vi beder søgemaskiner om ikke at vise dem. Det kan også bruges til at forhindre søgemaskiner i at tjekke sider, der muligvis ikke hjælper dem med at klassificere dit websted i søgeresultater.
Kort sagt, robots.txt fortæller webcrawlere, hvad de skal gøre.
Kan gennemsøgere ignorere robots.txt?
Ignorerer crawler nogensinde robots.txt-filer? Ja. Faktisk mange crawlere gøre ignorer det. Generelt er disse crawlere dog ikke fra hæderlige søgemaskiner. De kommer fra spammere, e-mail-høstere og andre typer automatiserede bots Sådan bygges en grundlæggende webcrawler til at trække oplysninger fra et webstedHar du nogensinde ønsket at indhente oplysninger fra et websted? Sådan skriver du en crawler for at navigere på et websted og udpakke det, du har brug for. Læs mere der strejfer rundt på internettet. Det er vigtigt at huske på dette - at bruge robot-ekskluderingsstandarden til at fortælle bots om at holde ude er ikke en effektiv sikkerhedsforanstaltning. Faktisk kan nogle bots muligvis Start med de sider, du beder dem om ikke at gå til.
Søgemaskiner gør imidlertid, som din robots.txt-fil siger, så længe den er formateret korrekt.
Sådan skrives en robots.txt-fil
Der er et par forskellige dele, der går ind i en standardfil for en robotudelukkelse. Jeg nedbryder dem hver for sig her.
Brugeragent-erklæring
Inden du fortæller en bot, hvilke sider den ikke skal se på, skal du specificere hvilken bot du taler med. Det meste af tiden bruger du en simpel erklæring, der betyder "alle bots." Det ser sådan ud:
Bruger-agent: *
Stjernen står i "alle bots." Du kan dog specificere sider for bestemte bots. For at gøre det, skal du vide navnet på den bot, du lægger retningslinjer for. Det kan se sådan ud:
Bruger-agent: Googlebot. [liste over sider, der ikke skal gennemgå] Brugeragent: Googlebot-Image / 1.0. [liste over sider, der ikke skal gennemgå] Bruger-agent: Bingbot. [liste over sider, der ikke skal gennemgå]
Og så videre. Hvis du opdager en bot, som du overhovedet ikke ønsker at gennemgå dit websted, kan du også specificere det.
For at finde navnene på brugeragenter skal du tjekke useragentstring.com [No Longer Available].
Afvisning af sider
Dette er hoveddelen af din robot-ekskluderingsfil. Med en simpel erklæring beder du en bot eller en gruppe af bots om ikke at gennemgå bestemte sider. Syntaks er let. Sådan undgår du adgang til alt i "admin" -kataloget på dit websted:
Afvis: / admin /
Denne linje forhindrer bots i at gennemgå yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html og alt andet, der falder ind under admin-biblioteket.
For at afvise en enkelt side skal du bare angive den på disallow-linjen:
Afvis: /public/exception.html
Nu "undtagelses" -siden bliver ikke trukket, men alt andet i mappen "offentlig" vil det.
For at inkludere flere mapper eller sider skal du bare liste dem på de følgende linjer:
Afvis: / privat / Afvis: / admin / Afvis: / cgi-bin / Afvis: / temp /
Disse fire linjer gælder for hvilken brugeragent du har angivet øverst i sektionen.
Hvis du vil forhindre bots i at se på en side på dit websted, skal du bruge dette:
Afvis: /
Indstilling af forskellige standarder for bots
Som vi så ovenfor, kan du specificere bestemte sider for forskellige bots. Ved at kombinere de to foregående elementer er det sådan, der ser ud:
Bruger-agent: googlebot. Afvis: / admin / Disallow: / private / User-agent: bingbot. Afvis: / admin / Afvis: / privat / Afvis: / hemmelighed /
Afsnit "admin" og "privat" vil være usynlige på Google og Bing, men Google vil se det "hemmelige" bibliotek, mens Bing ikke gør det.
Du kan specificere generelle regler for alle bots ved hjælp af stjerne-brugeragenten og derefter give specifikke instruktioner til bots i også efterfølgende sektioner.
Samler det hele
Med viden ovenfor kan du skrive en komplet robots.txt-fil. Bare fyr din favorit teksteditor (vi er.) fans af Sublime 11 sublime teksttips til produktivitet og en hurtigere arbejdsgangSublime Text er en alsidig tekstredigerer og en guldstandard for mange programmerere. Vores tip fokuserer på effektiv kodning, men generelle brugere vil sætte pris på tastaturgenveje. Læs mere omkring her) og begynd at fortælle bots, at de ikke er velkomne i visse dele af dit websted.
Hvis du gerne vil se et eksempel på en robots.txt-fil, skal du bare gå til ethvert sted og tilføje "/robots.txt" til slutningen. Her er en del af filen Giant Bicycles robots.txt:
Som du kan se, er der en hel del sider, som de ikke ønsker at vises på søgemaskiner. De har også inkluderet et par ting, som vi ikke har talt om endnu. Lad os se på hvad du ellers kan gøre i din robot-ekskluderingsfil.
Find dit sitemap
Hvis din robots.txt-fil fortæller bots hvor ikke at gå, din sitemap gør det modsatte Sådan opretter du et XML-sitemap i 4 nemme trinDer er to typer sitemaps - HTML-side eller en XML-fil. Et HTML-sitemap er en enkelt side, der viser besøgende alle sider på et websted og som regel har links til disse ... Læs mere , og hjælper dem med at finde, hvad de leder efter. Og selvom søgemaskiner sandsynligvis allerede ved, hvor dit sitemap er, skader det ikke at fortælle dem det igen.
Erklæringen for en sitemap-placering er enkel:
Sitemap: [URL til sitemap]
Det er det.
I vores egen robots.txt-fil ser det sådan ud:
Sitemap: //www.makeuseof.com/sitemap_index.xml
Det er alt, hvad der er der til det.
Indstilling af en gennemgangsforsinkelse
Direktivet om gennemgangsforsinkelse fortæller visse søgemaskiner, hvor ofte de kan indeksere en side på dit websted. Det måles i sekunder, selvom nogle søgemaskiner fortolker det lidt anderledes. Nogle ser en gennemsøgningsforsinkelse på 5 som at fortælle dem at vente fem sekunder efter hver gennemgang med at starte den næste. Andre fortolker det som en instruktion om kun at gennemgå en side hvert femte sekund.
Hvorfor vil du bede en crawler om ikke at gennemgå så meget som muligt? Til bevare båndbredde 4 måder Windows 10 spilder din internetbåndbreddeSpilder Windows 10 din internetbåndbredde? Her er, hvordan du kontrollerer, og hvad du kan gøre for at stoppe det. Læs mere . Hvis din server kæmper for at følge med i trafikken, kan det være en god idé at indstille en gennemgangsforsinkelse. Generelt behøver de fleste ikke at bekymre sig om dette. Store websteder med stor trafik kan dog ønske at eksperimentere lidt.
Sådan indstiller du en gennemsøgningsforsinkelse på otte sekunder:
Gennemsøgningsforsinkelse: 8
Det er det. Ikke alle søgemaskiner overholder dit direktiv. Men det skader ikke at spørge. Som med ikke-tilladte sider kan du indstille forskellige gennemgangsforsinkelser for specifikke søgemaskiner.
Upload af din robots.txt fil
Når du har konfigureret alle instruktionerne i din fil, kan du uploade dem til dit websted. Sørg for, at det er en almindelig tekstfil og har navnet robots.txt. Upload det derefter til dit websted, så det kan findes på yoursite.com/robots.txt.
Hvis du bruger en indholds styrelses system 10 mest populære indholdsstyringssystemer onlineDage med håndkodede HTML-sider og mastering af CSS er længe gået. Installer et indholdsstyringssystem (CMS), og inden for få minutter kan du have et websted til at dele med verden. Læs mere ligesom WordPress, er der sandsynligvis en bestemt måde, du skal bruge til dette. Da det adskiller sig i hvert indholdsstyringssystem, skal du læse dokumentationen til dit system.
Nogle systemer kan muligvis også have online-grænseflader til upload af din fil. For disse skal du bare kopiere og indsætte den fil, du oprettede i de foregående trin.
Husk at opdatere din fil
Det sidste råd, jeg vil give, er lejlighedsvis at se på din robot-ekskluderingsfil. Dit websted ændres, og du skal muligvis foretage nogle justeringer. Hvis du bemærker en mærkelig ændring i din søgemaskintrafik, er det en god ide at tjekke filen også. Det er også muligt, at standardnotationen kan ændre sig i fremtiden. Som alt andet på dit websted er det værd at tjekke det op en gang imellem.
Hvilke sider ekskluderer du crawler fra på dit websted? Har du bemærket nogen forskel i søgemaskintrafikken? Del dine råd og kommentarer nedenfor!
Dann er en indholdsstrategi og marketingkonsulent, der hjælper virksomheder med at skabe efterspørgsel og kundeemner. Han blogger også om strategi og indholdsmarkedsføring på dannalbright.com.