Bekymret over AI-chatbots, der skraber dit websted for indhold? Heldigvis kan du blokere dem fra at gøre det. Sådan gør du.

Som tingene ser ud, har AI-chatbots en gratis licens til at skrabe dit websted og bruge dets indhold uden din tilladelse. Bekymret over, at dit indhold bliver skrabet af sådanne værktøjer?

Den gode nyhed er, at du kan forhindre AI-værktøjer i at få adgang til dit websted, men der er nogle forbehold. Her viser vi dig, hvordan du blokerer bots ved hjælp af robots.txt-filen til dit websted, plus fordele og ulemper ved at gøre det.

Hvordan får AI Chatbots adgang til dit webindhold?

AI-chatbots trænes ved hjælp af flere datasæt, hvoraf nogle er open source og offentligt tilgængelige. For eksempel blev GPT3 trænet ved hjælp af fem datasæt, ifølge et forskningspapir udgivet af OpenAI:

  1. Almindelig kravle (60 % vægt under træning)
  2. WebText2 (22 % vægt i træning)
  3. Bøger1 (8 % vægt i træning)
  4. Bøger2 (8 % vægt i træning)
  5. Wikipedia (3 % vægt i træning)

Almindelig kravle omfatter petabytes (tusindvis af TB'er) af data fra websteder indsamlet siden 2008, på samme måde som Googles søgealgoritme gennemgår webindhold. WebText2 er et datasæt skabt af OpenAI, der indeholder omkring 45 millioner websider, der linkes til fra Reddit-indlæg med mindst tre upvotes.

Så i tilfælde af ChatGPT har AI-bot ikke adgang til og crawler dine websider direkte - ikke endnu, alligevel. Selvom, OpenAI's annoncering af en ChatGPT-hostet webbrowser har rejst bekymring for, at dette kunne være ved at ændre sig.

I mellemtiden bør webstedsejere holde øje med andre AI-chatbots, da flere af dem kommer på markedet. Bard er det andet store navn på området, og man ved meget lidt om de datasæt, der bruges til at træne det. Vi ved naturligvis, at Googles søgerobotter konstant gennemsøger websider, men det betyder ikke nødvendigvis, at Bard har adgang til de samme data.

Hvorfor er nogle webstedsejere bekymrede?

Den største bekymring for webstedsejere er, at AI-bots som ChatGPT, Bard og Bing Chat devaluerer deres indhold. AI-bots bruger eksisterende indhold til at generere deres svar, men reducerer også behovet for brugere for at få adgang til den originale kilde. I stedet for at brugere besøger websteder for at få adgang til information, kan de blot få Google eller Bing til at generere en oversigt over de oplysninger, de har brug for.

Når det kommer til AI-chatbots i søgning, er den store bekymring for webstedsejere at miste trafik. I tilfældet med Bard, AI-bot inkluderer sjældent citater i sine generative svar, der fortæller brugerne, hvilke sider den får sine oplysninger fra.

Så bortset fra at erstatte webstedsbesøg med AI-svar, fjerner Bard næsten enhver chance for, at kildewebstedet modtager trafik – også selvom brugeren ønsker mere information. Bing Chat, på den anden side, linker mere almindeligt til informationskilder.

Med andre ord er den nuværende flåde af generative AI-værktøjer ved at bruge indholdsskabernes arbejde systematisk at erstatte behovet for indholdsskabere. I sidste ende må du spørge hvilket incitament dette efterlader webstedsejere for at fortsætte med at udgive indhold. Og i forlængelse heraf, hvad sker der med AI-bots, når websteder holder op med at udgive det indhold, de er afhængige af for at fungere?

Sådan blokerer du AI-bots fra dit websted

Hvis du ikke ønsker, at AI-bots bruger dit webindhold, kan du blokere dem fra at få adgang til dit websted ved hjælp af robots.txt fil. Desværre er du nødt til at blokere hver enkelt bot og angive dem ved navn.

F.eks. kaldes Common Crawls bot CCBot, og du kan blokere den ved at tilføje følgende kode til din robots.txt-fil:

Bruger-agent: CCBot
Disallow: /

Dette vil blokere Common Crawl fra at crawle dit websted i fremtiden, men det vil ikke fjerne nogen data, der allerede er indsamlet fra tidligere crawl.

Hvis du er bekymret for, at ChatGPTs nye plugins får adgang til dit webindhold, har OpenAI allerede offentliggjort instruktioner til at blokere dens bot. I dette tilfælde kaldes ChatGPTs bot ChatGPT-User, og du kan blokere den ved at tilføje følgende kode til din robots.txt-fil:

Brugeragent: ChatGPT-Bruger
Disallow: /

Blokering af søgemaskine AI-bots fra at crawle dit indhold er dog et helt andet problem. Da Google er meget hemmelighedsfuld omkring de træningsdata, det bruger, er det umuligt at identificere, hvilke bots du skal blokere, og om de overhovedet vil respektere kommandoer i din robots.txt fil (mange crawlere gør ikke).

Hvor effektiv er denne metode?

Blokering af AI-bots i din robots.txt fil er den mest effektive metode, der er tilgængelig i øjeblikket, men den er ikke særlig pålidelig.

Det første problem er, at du skal specificere hver bot, du vil blokere, men hvem kan holde styr på hver AI-bot, der rammer markedet? Det næste problem er, at kommandoer i din robots.txt fil er ikke-obligatoriske instruktioner. Mens Common Crawl, ChatGPT og mange andre bots respekterer disse kommandoer, gør mange bots det ikke.

Den anden store advarsel er, at du kun kan blokere AI-bots fra at udføre fremtidige crawl. Du kan ikke fjerne data fra tidligere gennemgange eller sende anmodninger til virksomheder som OpenAI om at slette alle dine data.

Desværre er der ingen enkel måde at blokere alle AI-bots fra at få adgang til dit websted, og manuelt blokering af hver enkelt bot er næsten umuligt. Selvom du følger med de nyeste AI-bots, der roamer på nettet, er der ingen garanti for, at de alle vil overholde kommandoerne i din robots.txt fil.

Det egentlige spørgsmål her er, om resultaterne er besværet værd, og det korte svar er (næsten helt sikkert) nej.

Der er også potentielle ulemper ved at blokere AI-bots fra dit websted. Mest af alt vil du ikke være i stand til at indsamle meningsfulde data for at bevise, om værktøjer som Bard gavner eller skader din søgemarketingstrategi.

Ja, du kan antage, at mangel på citater er skadelig, men du gætter kun, hvis du mangler dataene, fordi du blokerede AI-bots fra at få adgang til dit indhold. Det var en lignende historie, da Google først introducerede fremhævede uddrag at søge.

For relevante forespørgsler viser Google et uddrag af indhold fra websider på resultatsiden, som besvarer brugerens spørgsmål. Det betyder, at brugere ikke behøver at klikke sig videre til et websted for at få det svar, de leder efter. Dette forårsagede panik blandt webstedsejere og SEO-eksperter, som er afhængige af at generere trafik fra søgeforespørgsler.

Den slags forespørgsler, der udløser udvalgte uddrag, er generelt søgninger med lav værdi som "hvad er X" eller "hvad er vejret i New York". Enhver, der ønsker dybdegående information eller en omfattende vejrrapport, vil stadig klikke sig igennem, og dem, der ikke gør, var aldrig så værdifulde i første omgang.

Du finder måske ud af, at det er en lignende historie med generative AI-værktøjer, men du skal bruge dataene til at bevise det.

Skynd dig ikke ind i noget

Hjemmesideejere og -udgivere er forståeligt nok bekymrede over AI-teknologi og frustrerede over ideen om, at bots bruger deres indhold til at generere øjeblikkelige svar. Dette er dog ikke tiden til at skynde sig ind i modoffensive træk. AI-teknologi er et felt i hurtig bevægelse, og tingene vil fortsætte med at udvikle sig i et hurtigt tempo. Benyt lejligheden til at se, hvordan tingene udspiller sig, og analyser de potentielle trusler og muligheder AI bringer til bordet.

Det nuværende system med at stole på indholdsskaberes arbejde for at erstatte dem er ikke bæredygtigt. Uanset om virksomheder som Google og OpenAI ændrer deres tilgang, eller regeringer indfører nye regler, er der noget at give af. Samtidig bliver de negative konsekvenser af AI-chatbots på indholdsskabelse stadig mere tydelige, hvilket webstedsejere og indholdsskabere kan bruge til deres fordel.