For over 70 år siden, da kunstig intelligens blev konceptualiseret, udgav Alan Turing et papir, der beskrev, hvordan man identificerer det. Den blev senere kendt som Turing-testen, og den har været brugt i årtier til at skelne mellem et menneske og en AI.

Men med introduktionen af ​​avancerede AI-chatbots som ChatGPT og Google Bard, bliver det sværere at sige, om du taler med en AI. Det rejser spørgsmålet; er Turing-testen forældet? Og hvis det er, hvad er alternativerne?

Er Turing-testen forældet?

Billedkredit: Jesus Sanz/Shutterstock

For at afgøre, om Turing-testen er forældet, skal du først forstå, hvordan det fungerer. For at en AI skal bestå Turing-testen, skal den overbevise en menneskelig udspørger om, at den er et menneske. Men der er en hage - AI'en evalueres sammen med et menneske, og den skal reagere ved hjælp af tekst.

Tænk på det sådan her; hvis du er forhørslederen, og du stiller spørgsmål til to deltagere online ved hjælp af tekst, men en af ​​dem er en kunstig intelligens-model – vil du adskille dem efter fem minutter? Husk, at formålet med Turing-testen ikke er at identificere AI-modellen baseret på de rigtige svar, men at evaluere, om AI'en kan tænke eller opføre sig som et menneske.

instagram viewer

Problemet med Turing-testmetoden med kun at identificere menneskelignende svar er, at den ikke tager andre faktorer i betragtning. For eksempel intelligensen af ​​AI-modellen eller kendskabet til forhørslederen. Udover det er Turing-testen begrænset til kun tekst, og det bliver sværere at identificere en AI, der genererer en menneskelig stemme eller deepfake videoer, der efterligner menneskelig adfærd.

Imidlertid er de nuværende AI-modeller som ChatGPT-4 og Google Bard endnu ikke avanceret til et punkt, hvor de konsekvent kan bestå Turing-testen. Faktisk, hvis du er fortrolig med AI, kan du det spot AI-genereret tekst.

De 5 bedste Turing-testalternativer

Det er muligt fremtidige AI-modeller som ChatGPT-5 kunne bestå Turing-testen. Hvis det sker, ville vi have brug for forskellige tests kombineret med Turing-testen for at identificere, om vi taler med en AI eller et menneske. Her er de bedste Turing-testalternativer:

1. Marcus-testen

Gary Marcus, en kendt kognitiv videnskabsmand og AI-forsker, foreslog et alternativ til Turing-testen, der blev offentliggjort i New Yorker at identificere en AIs kognitive evner. Testen er enkel – du bedømmer en AI-model ud fra dens evne til at se og forstå YouTube-videoer og tv-shows uden undertekster eller tekst. For at AI'en kan bestå Marcus-testen, bør den forstå sarkasme, humor, ironi og historien, når den ser videoerne og forklare det som et menneske.

I øjeblikket, GPT-4 kan beskrive billeder, men indtil videre er der i øjeblikket ingen AI-model, der kan forstå videoer som et menneske. Selvkørende køretøjer kommer tæt på, men de er ikke helt autonome og kræver sensorer, da de ikke kan forstå alt i deres omgivende miljø.

2. Den visuelle Turing-test

Ifølge en forskningsartikel offentliggjort på PNAS, kan den visuelle Turing-test bruges til at identificere, om du taler med et menneske eller en AI ved hjælp af billedspørgsmål. Det fungerer ligesom Turing-testen, men i stedet for at besvare spørgsmål ved hjælp af tekster, får deltagerne vist billeder og forventes at svare på simple spørgsmål, mens de tænker som et menneske. Imidlertid visuel Turing-test er forskellig fra CAPTCHA'er da alle svarene er rigtige - men for at bestå testen skal AI'en behandle billederne på samme måde som et menneske.

Ud over det, hvis en AI og et menneske bliver vist flere billeder side om side og bedt om at identificere realistiske billeder, ville mennesket have den kognitive evne til at bestå testen. Dette skyldes, at AI-modeller har svært ved at skelne billeder, der ikke ser ud som om de er taget i den virkelige verden. Det er faktisk grunden til, at du kan identificere AI-genererede billeder ved at bruge uregelmæssigheder, der ikke giver mening.

3. Lovelace 2.0-testen

Teorien om, at en computer ikke kan skabe originale ideer ud over, hvad den var programmeret til at gøre, blev først konceptualiseret af Ada Lovelace før Turing-testen. Alan Turing protesterede dog mod den teori og hævdede, at AI stadig kan overraske mennesker. Det var først i 2001, at retningslinjerne for Lovelace-testen blev udviklet for at adskille en AI fra et menneske - og som pr. thekurzweilibrary reglerne blev senere revideret i 2014.

For at en AI skal bestå Lovelace-testen, skal den demonstrere, at den kan generere originale ideer, der overstiger dens træning. Nuværende AI-modeller som GPT-4 har ikke evnen til at komme med nye opfindelser ud over vores eksisterende viden. Imidlertid, kunstig generel intelligens kan opnå den evne og bestå Lovelace-testen.

4. Omvendt Turing-test

Hvad med Turing-testen, men udført omvendt? I stedet for at prøve at finde ud af, om du taler med et menneske, er målet med omvendt Turing test er at narre AI til at tro, at du er en AI. Du skal dog også bruge en anden AI-model til at besvare de samme spørgsmål ved hjælp af tekst.

For eksempel, hvis ChatGPT-4 er forhørslederen, kan du tilmelde Google Bard og et andet menneske som deltagere. Hvis AI-modellen korrekt kan identificere den menneskelige deltager baseret på svarene, har den bestået testen.

Ulempen ved den omvendte Turing-test er, at den er upålidelig, især i betragtning af det nogle gange AI kan ikke differentiere AI-genereret og menneskeskrevet indhold.

5. AI-klassifikationsramme

I henhold til AI-klassifikationsrammerne udviklet af Chris Saad, Turing-testen er kun én evalueringsmetode til at vide, om du taler med en AI. Mere kortfattet er AI-klassifikationsrammen baseret på teorien om multipel intelligens, som kræver, at menneskelig intelligens opfylder mindst otte forskellige kriterier, som omfatter: musikalsk rytme, logisk-matematisk intelligens, visuel identifikation, følelsesmæssig intelligens, selvreflekterende intelligens, eksistentiel tænkeevne og krop bevægelse.

Da AI evalueres på otte forskellige parametre, er det usandsynligt, at det passer til et menneske, selvom det klarer sig bedre end gennemsnittet i visse benchmarks. For eksempel, ChatGPT kan løse matematiske problemer, beskriver billeder og samtaler i et naturligt sprog som et menneske, men det ville fejle andre kategorier defineret i AI-klassifikationsrammen.

Turing-testen er ikke afgørende

Turing-testen skulle mere være et tankeeksperiment end en afgørende test for at skelne mellem mennesker og AI. Da det oprindeligt blev foreslået, var det det centrale benchmark for måling af maskinintelligens.

Men med den seneste udvikling af AI-modeller med tale-, visuelle og hørende interaktive muligheder, kommer Turing-testen til kort, da den er begrænset til tekstsamtale. Den mest effektive løsning ville være at introducere Turing-testalternativer, der yderligere adskiller AI-modeller fra mennesker.