Forhindr din hjemmeside i at blive skrabet af OpenAI's crawlere ved hjælp af denne guide.
Mens brugere elsker ChatGPT for den store mængde information, som det i øjeblikket rummer, kan det samme ikke siges om webstedsejere.
OpenAI's ChatGPT bruger crawlere til at skrabe websteder, men hvis du er webstedsejer, og du ikke ønsker, at OpenAI's crawler skal få adgang til dit websted, er her et par ting, du kan gøre for at forhindre det.
Hvordan fungerer OpenAI-crawling?
EN webcrawler (også kendt som en edderkop eller en søgemaskinebot) er et automatiseret program, der scanner internettet for information. Den kompilerer derefter disse oplysninger på en måde, der er let for din søgemaskine at få adgang til dem.
Webcrawlere indekserer hver side af alle relevante webadresser, og fokuserer normalt på websteder, der er mere relevante for dine søgeforespørgsler. Lad os for eksempel antage, at du googler en bestemt Windows-fejl. Webcrawleren i din søgemaskine scanner alle webadresser fra websteder, som den anser for mere autoritative om emnet Windows-fejl.
OpenAIs webcrawler hedder GPTBot, og iflg OpenAI's dokumentation, at give GPTBot adgang til dit websted kan hjælpe med at træne AI-modellen til at blive sikrere og mere præcis, og det kan endda hjælpe med at udvide AI-modellens muligheder.
Sådan forhindrer du OpenAI i at crawle dit websted
Som de fleste andre webcrawlere kan GPTBot blokeres fra at få adgang til din hjemmeside ved at ændre hjemmesidens robots.txt protokol (også kendt som robotekskluderingsprotokollen). Denne .txt-fil hostes på webstedets server, og den styrer, hvordan webcrawlere og andre automatiserede programmer opfører sig på dit websted.
Her er en kort liste over, hvad robot.txt fil kan gøre:
- Det kan fuldstændig blokere GPTBot fra at få adgang til webstedet.
- Det kan kun blokere visse sider fra en URL fra at blive tilgået af GPTBot.
- Den kan fortælle GPTBot, hvilke links den kan følge, og hvilke den ikke kan.
Sådan styrer du, hvad GPTBot kan gøre på dit websted:
Bloker fuldstændigt GPTBot fra at få adgang til dit websted
- Konfigurer filen robot.txt, og rediger den derefter med et vilkårligt tekstredigeringsværktøj.
- Tilføj GPTBot til dit websteds robots.txt som følger:
User-agent: GPTBot
Disallow: /
Bloker kun visse sider fra at blive tilgået af GPTBot
- Indstil robot.txt fil, og rediger den derefter med dit foretrukne tekstredigeringsværktøj.
- Tilføj GPTBot til dit websteds robots.txt som følger:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
Husk dog på, at ændring af robot.txt fil er ikke en løsning med tilbagevirkende kraft, og enhver information, som GPTBot måske allerede har indsamlet fra dit websted, vil ikke kunne gendannes.
OpenAI giver webstedsejere mulighed for at fravælge gennemgang
Lige siden crawlere er blevet brugt til at træne AI-modeller, har webstedsejere ledt efter måder at holde deres data private.
Nogle frygter, at AI-modeller dybest set stjæler deres arbejde og tilskriver endda færre webstedsbesøg, at brugerne nu får deres information uden nogensinde at skulle besøge deres websteder.
Alt i alt, om du helt vil blokere AI-chatbots fra at scanne dine websteder, er helt dit valg.