GPTBot er sandsynligvis ikke, hvad du tror.

Nøgle takeaways

  • OpenAIs GPTBot er en webcrawler designet til at indsamle data fra offentlige websteder, som derefter bruges til at træne og forbedre AI-modeller som GPT-4 og ChatGPT.
  • Nogle af de største websteder på internettet blokerer GPTBot, fordi det tilgår og bruger ophavsretligt beskyttet indhold uden tilladelse eller kompensation til skaberne.
  • Mens websteder kan bruge værktøjer som robots.txt til at forsøge at blokere GPTBot, er der ingen garantier for, at OpenAI vil overholde, hvilket giver dem kontrol over adgang til ophavsretligt beskyttede data.

I august 2023 annoncerede OpenAI, AI-kraftværket, der er krediteret med at udvikle ChatGPT, GPTBot, en webcrawler designet til at krydse nettet og indsamle data.

Ikke længe efter denne meddelelse blokerede nogle af de største websteder på internettet botten fra at få adgang til deres websted. Men hvorfor? Hvad er OpenAI's GPTBot? Hvorfor er de store hjemmesider bange for det, og hvorfor forsøger de at blokere det?

Hvad er OpenAI's GPTBot?

GPTBot er en webcrawler skabt af OpenAI til at søge på internettet og indsamle oplysninger til OpenAIs AI-udviklingsmål. Den er programmeret til at gennemgå offentlige hjemmesider og sende dataene tilbage til OpenAIs servere. OpenAI bruger derefter disse data til at træne og forbedre sine AI-modeller med det mål at bygge stadig mere avancerede kunstig intelligens-systemer. For at bygge sofistikerede AI-modeller som GPT-4 eller dets underordnede produkter som ChatGPT er webcrawlere næsten uundværlige.

Træning af en AI-model kræver en enorm mængde data, og en af ​​de mest effektive måder at indsamle disse data på er ved at implementere værktøjer som webcrawlere. Crawlere kan systematisk browse på nettet, følge links for at indeksere store mængder websider og udtrække nøgledata som tekst, billeder og metadata, der matcher et foruddefineret mønster.

Disse data kan derefter struktureres og føres ind i AI-modeller for at træne deres naturlige sprogbehandlingsevner eller billedgenereringsevner eller træne dem til andre AI-opgaver. Med ord, webcrawlere samler de data, der gør det muligt for værktøjer som ChatGPT eller DALL-E at gøre, hvad de gør.

Webcrawlere er ikke et nyt koncept. Der er sandsynligvis millioner af dem, der gennemsøger de milliarder af websteder, der er tilgængelige på internettet i dag. Og de har eksisteret siden i hvert fald begyndelsen af ​​90'erne. GPTBot er blot en af ​​sådanne crawlere, der ejes af OpenAI. Så hvad forårsager kontroversen omkring denne særlige webcrawler?

Hvorfor blokerer store tekniske websteder GPTBot?

Ifølge Business Insider, blokerer nogle af de største websteder på internettet aktivt OpenAI's crawler på deres websted. Så hvis det ultimative mål med GPTBot er at fremme AI-udvikling, hvorfor er nogle af de største websteder på internettet, hvoraf nogle har draget fordel af AI på den ene eller anden måde, imod det?

Nå, her er sagen. Siden genopblussen af ​​generative AI-teknologier i 2022 har der været talrige debatter om AI-virksomheders ret til at bruge, næsten uden begrænsninger, data hentet fra internettet, hvoraf en betydelig del er juridisk beskyttet af ophavsret. Ingen klare love regulerer, hvordan disse virksomheder indsamler og bruger data til egen vinding.

Så dybest set gennemgår crawlere som GPTBot nettet, griber folks kreative arbejde i form af tekst, billeder eller andre former for medier og bruge det til kommercielle formål uden at indhente nogen tilladelse, licens eller yde kompensation til originalen skabere.

Det er et vilde vesten derude, og AI-virksomheder griber alt, hvad de kan få fat i. Store websteder som Quora, CNN, New York Times, Business Insider og Amazon er ikke særlig glade for, at deres ophavsretligt beskyttet indhold bliver høstet af disse crawlere, så OpenAI kan få økonomisk fordel af det hos deres bekostning.

Det er derfor, disse websteder implementerer "robots.txt", en årtier gammel metode til at blokere webcrawlere. Ifølge OpenAI, vil GPTBot adlyde instruktionerne for at crawle eller undgå at crawle websteder baseret på reglerne, der er indlejret i robots.txt, en lille tekstfil, der fortæller webcrawlere, hvordan de skal opføre sig på et websted. Hvis du har et eget websted og ville elske at forhindre GPTBot i at få fat i dine data, er det her, hvordan du kan blokere OpenAI's crawlere fra at skrabe dit websted.

Kan websteder virkelig stoppe GPTBot?

Mens crawlere som GPTBot er uundværlige for at indsamle de enorme mængder data, der kræves træne avancerede AI-systemer, er der gyldige bekymringer omkring ophavsret og fair brug, som ikke kan være det ignoreret.

Selvfølgelig er der simple værktøjer som robots.txt, der kan bruges til at beskytte sig mod dette, men hvorvidt GPTBot adlyder instruktionerne på denne fil er helt op til OpenAI's skøn. Der er ingen garantier for, at de vil gøre det, og der er ingen umiddelbar idiotsikker måde at fortælle, om de har gjort det. I kampen for at holde GPTBot væk fra ophavsretligt beskyttede data, har OpenAI esserne, i det mindste indtil videre.