Det bliver mere og mere vanskeligt for AI-detektionsværktøjer, og det ser ikke ud til at ændre sig snart.
AI chatbots er uden tvivl kraftfulde og nyttige værktøjer. Men evnen til at skelne mellem menneskeskabt og AI-genereret indhold er ved at blive et fremtrædende problem.
For at løse dette problem er værktøjer som ZeroGPT dukket op. Disse er designet til at skelne mellem kunstig intelligens og menneskeskabt indhold. Men virker de?
Lad os se nærmere på AI-detektionsværktøjer og se, om de kan kende forskel på menneskelig og AI-genereret tekst.
De siger, at beviset på buddingen er i spisningen. Så lad os prøve nogle tests og se, hvor effektive disse værktøjer er. Det er umuligt at teste alle værktøjer, så vi tester et af de mest populære værktøjer - ZeroGPT.
For materiale, syntes vi, det ville være ret sjovt at give ChatGPT et knæk i at skrive en intro til denne artikel og derefter sammenligne den med den "menneskeskabte" intro:
Test 1: Sammenligning af en menneskelig og AI-genereret artikelintro
Det første, vi gjorde, var at få ChatGPT til at generere en introduktion. Vi indtastede titlen og gav den ingen yderligere information. For ordens skyld brugte vi GPT-3.5 til testen.
Vi kopierede derefter teksten og indsatte den i ZeroGPT. Som du kan se, var resultaterne mindre end fantastiske.
En iøjnefaldende start, men den illustrerer, hvor effektive AI-chatbots er. For at fuldføre testen lader vi ZeroGPT analysere et menneskeskabt udkast til intro.
Det fik i det mindste denne del korrekt. Samlet set fejlede ZeroGPT i denne runde. Det fastslog, at i det mindste en del af den AI-genererede introduktion var mistænkelig, men undlod at fremhæve specifikke problemer.
Test to: Det falske positive problem
Efterhånden som brugen af ChatGPT og andre AI-værktøjer vokser, stiger sandsynligheden for at vide eller høre om nogen, der bliver konfronteret med påstande om, at deres arbejde var AI-genereret. Disse beskyldninger er et af de mere alvorlige problemer med ChatGPT og AI-detektionsværktøjer som ZeroGPT, da denne form for fejl kan skade omdømme og påvirke levebrød.
Falske positiver opstår, når menneskeskabt indhold fejlagtigt markeres som værende AI's arbejde. Som eksemplet nedenfor viser, er problemet nemt at replikere. Jeg er en ivrig lystfisker, så jeg besluttede at skrive en introduktion til en imaginær artikel om fiskeri i Florida. Jeg lod derefter ZeroGPT analysere teksten - den markerede, at teksten var 100 % AI-genereret.
For at være retfærdig sigtede jeg efter dette resultat. Jeg holdt teksten generisk og brugte "salgssprog". Men pointen om, at et menneske skrev dette, forbliver lige så gyldigt. Dette er ikke en ulempe eller noget, der bare kan trækkes på skuldrene. Fejl som denne kan have alvorlige konsekvenser for forfattere, studerende og andre fagfolk, der skaber skriftlige værker.
Test tre: Test af ZeroGPT på fiktion
Til den tredje test skal vi bruge ChatGPT og bede den om at skrive noget fiktion. For at gøre dette oprettede vi et scenarie og bad ChatGPT om at skrive en kort introduktion til en fiktiv historie.
Vi holdt det enkelt og bad bare om at skrive en intro til en historie om to fremmede, der mødes på en jernbaneperron:
Og her var svaret fra ZeroGPT:
Som det fremgår af resultatet, er ZeroGPT ikke i stand til at skelne fakta fra fiktion, når de beskæftiger sig med fiktion!
Test fire: Nyhedsartikler
Der er noget foruroligende ved, at AI er i stand til at informere os om, hvad der sker i verden omkring os. Dette er ikke altid nødvendigvis "fake news", da det kan være relevant og informativt, men det er der konkrete etiske bekymringer om kunstig intelligens.
For at være retfærdig over for ZeroGPT klarede den sig godt i denne test. Vi bad ChatGPT og Bing Chat om at skrive nyhedsartikler om flere emner, og ZeroGPT klarede det hver gang. Eksemplet nedenfor viser, at det korrekt erklærer en Bing Chat-genereret artikel som værende 100 % AI-genereret.
Værktøjet markerede så konsekvent hver nyhedsartikel som AI-genereret, at vi besluttede at teste den på en dummy-nyhedsartikel, som vi skrev til formålet.
Den identificerede i det mindste nogle af artiklerne som menneskeskabte, men den markerede over 70 % som AI-genereret. Igen skal vi være retfærdige her; dette var en ret grundlæggende re-hash af Bing-artiklen og var næppe af Pulitzer-prisens kvalitet.
Men pointen forbliver gyldig. Dette blev skrevet af et menneske ved hjælp af forskning fundet på internettet.
Der er ingen enkelt grund bag fejlene i værktøjer som ZeroGPT. Et grundlæggende problem er imidlertid effektiviteten af generative AI-chatbots. Disse repræsenterer en utrolig kraftfuld og hurtigt udviklende teknologi, der effektivt gør dem til et bevægeligt mål for AI-detektionsværktøjer.
AI-chatbots forbedrer løbende kvaliteten og "menneskeligheden" af deres output, og det gør opgaven ekstremt udfordrende. Men uanset vanskelighederne skal AI-siden af ligningen foretage en vurdering uden menneskelig tilsyn.
Værktøjer som ZeroGPT bruger AI til at træffe deres beslutninger. Men AI vågner ikke bare om morgenen og ved, hvad de skal gøre. Det skal trænes, og det er her, den tekniske side af ligningen bliver relevant.
Algoritmiske og træningsdata skævheder er uundgåelige, i betragtning af den store størrelse store sprogmodeller, som disse værktøjer er trænet på. Dette er ikke et problem, der er begrænset til AI-detektionsværktøjer, de samme skævheder kan få AI-chatbots til at generere forkerte svar og AI-hallucinationer.
Disse fejl manifesterer sig dog som forkerte "AI-flag" i detektionsværktøjer. Dette er næppe ideelt, men det er en afspejling af den nuværende tilstand af AI-teknologi. De skævheder, der er iboende i træningsdataene, kan føre til falske positive eller falske negative.
En anden faktor, der skal overvejes, er, hvad der udgør AI-genereret indhold. Hvis AI-genereret indhold blot omformuleres, er det så menneskeligt eller AI-genereret indhold? Dette repræsenterer en anden stor udfordring - sløringen af linjerne mellem de to gør det næsten umuligt at definere maskinskabt indhold.
Ser på fremtiden for AI-detektion
Det kan lyde, som om vi banker på værktøjer som ZeroGPT. Dette er ikke tilfældet; de står over for massive udfordringer, og teknologien er knap tør for bleer. Den hurtige optagelse af værktøjer som ChatGPT har skabt en efterspørgsel efter AI-detektion, og teknologien bør have en chance for at modnes og lære.
Disse værktøjer kan ikke forventes at klare de udfordringer, som chatbots udgør på egen hånd. Men de kan spille en værdifuld rolle i en samordnet og mangefacetteret indsats for at løse udfordringerne ved AI. De repræsenterer én brik i et større puslespil, der inkluderer etisk kunstig intelligens, menneskelig tilsyn og løbende forskning og udvikling.
De udfordringer, som disse værktøjer står over for, er spejlbilleder af de udfordringer, samfundet står over for, når vi kæmper med de dilemmaer, der er forbundet med en ny teknologisk tidsalder.
AI eller ikke AI? Det er spørgsmålet
Værktøjer som ZeroGPT er fejlbehæftede, det er der ingen tvivl om. Men de er ikke værdiløse, og de repræsenterer et vigtigt skridt, når vi forsøger at styre og regulere AI. Deres nøjagtighed vil forbedres, men det samme vil sofistikeringen af den AI, de er trænet til at opdage. Et sted midt i dette våbenkapløb skal vi finde en balance, som samfundet er fortrolig med.
Spørgsmålet - AI eller ej AI? Er mere end blot en diskussion om, hvorvidt noget er AI-genereret eller ej. Det er et tegn på de større spørgsmål, som samfundet står over for, når vi tilpasser os den modige nye verden af AI.
For ordens skyld, og ifølge ZeroGPT, var 27,21% af denne konklusion AI-genereret. Hmm.