Du kan teste forskellige AI-chatbots for at afgøre, hvilke der fungerer bedst. Men hvordan skal du gøre dette? Her er nogle vigtige faktorer at overveje.

AI er kommet langt fra at producere irrelevant, usammenhængende output. Moderne chatbots bruger avancerede sprogmodeller, der besvarer generelle vidensspørgsmål, komponerer lange essays og skriver kode, blandt andre komplekse opgaver.

På trods af disse fremskridt skal du bemærke, at selv de mest sofistikerede systemer har begrænsninger. AI laver stadig fejl. For at afgøre, hvilke chatbots der er mindst tilbøjelige til hallucinationer, test deres nøjagtighed baseret på disse faktorer.

1. Talefærdighed

Kør matematiske ligninger gennem chatbots. De vil teste platformens evne til at analysere ordproblemer, oversætte matematiske begreber og anvende korrekte formler. Kun få modeller demonstrerer pålidelige talfærdigheder. Faktisk en af ChatGPTs værste problemer under dens første måneder var dens frygtelige matematiske forståelse.

Billedet nedenfor viser ChatGPT, der fejler ved grundlæggende statistik.

instagram viewer

ChatGPT viste forbedring efter OpenAI lancerede sine maj 2023-opdateringer. Men i betragtning af dets begrænsede datasæt, vil du stadig have problemer med mellemliggende til avancerede matematiske beregninger.

I mellemtiden viser Bing Chat og Google Bard bedre regnefærdigheder. De kører forespørgsler gennem deres respektive søgemaskiner, hvilket gør dem i stand til at trække formler og svarark.

Prøv at omformulere dine ordproblemer. Undgå lange sætninger og erstat svage verber; Ellers kan chatbots misforstå dine spørgsmål.

2. Forståelse

Moderne AI-systemer kan påtage sig flere opgaver. Avancerede LLM'er gør det muligt for dem at beholde tidligere instruktioner og besvare meddelelser efter sektion, hvorimod ældre systemer behandler ental kommandoer. For eksempel svarer Siri på ét spørgsmål ad gangen.

Giv chatbots tre til fem opgaver samtidigt for at teste, hvor godt de analyserer komplekse prompter. Mindre sofistikerede modeller kan ikke behandle så meget information. Billedet nedenfor viser, at HuggingChat ikke fungerer ved en tre-trins prompt - den stopper ved trin et og afviger fra emnet.

HuggingChats sidste linjer er allerede usammenhængende.

ChatGPT fuldfører hurtigt den samme prompt og genererer fejlfrie, intelligente svar ved hvert trin.

Bing Chat giver et sammenfattet svar på de tre trin. Dens stive restriktioner forbyder unødvendigt lange output, der spilder processorkraft.

3. Aktualitet

Da AI-træning koster enorme ressourcer, begrænser de fleste udviklere datasæt til bestemte perioder. Tag ChatGPT som et eksempel. Den har en vidensgrænse for september 2021 – du kan ikke anmode om vejropdateringer, nyhedsrapporter eller den seneste udvikling. Her siger ChatGPT, at det ikke har adgang til realtidsinformation.

Bard har adgang til internettet. Det henter data fra Google SERP'er, så du kan stille en bredere vifte af spørgsmål, f.eks. seneste begivenheder, nyheder og forudsigelser.

Ligeledes trækker Bing Chat information i realtid fra sin søgemaskine.

Bing Chat og Bard leverer rettidige, opdaterede oplysninger, men sidstnævnte giver mere detaljerede svar. Bing præsenterer blot data, som de er. Du vil bemærke, at dets output ofte matcher fraseringen og tonen i dets linkede kilder ordret.

4. Relevans

Chatbots skal levere relevante output. De bør overveje den bogstavelige og kontekstuelle betydning af dine prompter, når de svarer. Tag denne samtale som et eksempel. Vores persona har brug for en ny telefon, men har kun $1.000 – ChatGPT overstiger ikke budgettet.

Når du tester for relevans, så prøv at lave lange instruktioner. Mindre sofistikerede chatbots har en tendens til at gå på en tangent, når de får forvirrende instruktioner. For eksempel kan HuggingChat komponere fiktive historier. Men det kan afvige fra hovedemnet, hvis du sætter for mange regler og retningslinjer.

5. Kontekstuel hukommelse

Kontekstuel hukommelse hjælper AI med at producere nøjagtigt, pålideligt output. I stedet for at tage dine spørgsmål for pålydende, samler de de detaljer, du nævner. Tag denne samtale som et eksempel. Bing Chat forbinder to separate beskeder for at danne et nyttigt, kortfattet svar.

Ligeledes tillader kontekstuel hukommelse chatbots at huske instruktioner. Dette billede viser ChatGPT, der efterligner den måde, en fiktiv karakter taler på gennem flere chats.

Test denne funktion selv ved konsekvent at henvise til tidligere udsagn. Giv chatbots forskellige oplysninger, og tving dem derefter til at huske disse i senere svar.

Kontekstuel hukommelse er begrænset. Bing Chat starter nye samtaler hver 20. omgang, mens ChatGPT ikke kan behandle prompter over 3.000 tokens.

6. Sikkerhedsbegrænsninger

AI gør ikke altid efter hensigten. Fejltræning kan forårsage maskinlæringsteknologier til at begå forskellige fejl, fra mindre matematiske fejl til problematiske kommentarer. Tage Microsoft Tay som et eksempel. Twitter-brugere udnyttede dens uovervågede læringsmodel og betingede den til at sige racemæssige bagtalelser.

Heldigvis lærte globale teknologiledere af Microsofts bommert. Selvom det er omkostningseffektivt og bekvemt, efterlader uovervåget læring AI-systemer tilbøjelige til bedrag. Derfor er udviklere primært afhængige af overvåget læring i dag. Chatbots kan lide ChatGPT lærer stadig af samtaler, men deres trænere filtrerer information først.

Forvent forskellige retningslinjer fra AI-virksomheder. ChatGPTs mindre rigide begrænsninger rummer en bredere vifte af opgaver, men er svage over for udnyttelse. I mellemtiden følger Bing Chat strengere grænser. Mens de hjælper med at bekæmpe udnyttelsesforsøg, hæmmer de også funktionaliteten. Bing lukker automatisk ned for potentielt skadelige samtaler.

7. AI Biases

AI er i sagens natur neutral. Dens mangel på præferencer og følelser gør den ude af stand til at danne sig meninger - den præsenterer blot information, den kender. Her er, hvordan ChatGPT reagerer på subjektive emner.

På trods af denne neutralitet, AI skævheder stadig opstår. De stammer fra de mønstre, datasæt, algoritmer og modeller, som udviklere bruger. AI kan være upartisk, men mennesker er det ikke.

For eksempel, Brookings Institution hævder, at ChatGPT demonstrerer venstreorienterede politiske skævheder. OpenAI afviser selvfølgelig disse påstande. Men for at undgå lignende problemer med nyere modeller, undgår ChatGPT meningsfulde output helt.

Ligeledes undgår Bing Chat følsomme, subjektive forhold.

Vurder selv AI-fordomme ved at stille meningsbaserede, åbne spørgsmål. Tal om emner uden rigtigt eller forkert svar - mindre sofistikerede chatbots vil sandsynligvis vise grundløse præferencer over for specifikke grupper.

8. Referencer

AI dobbelttjekker sjældent fakta. Det trækker blot information fra sine datasæt og omformulerer dem gennem sprogmodeller. Desværre forårsager begrænset træning AI-hallucinationer. Du kan stadig bruge generative AI-værktøjer til forskning, men sørg for at verificere fakta selv. Tag udgangen med et gran salt.

Bing Chat forenkler faktatjek-processen ved at angive dets referencer efter hvert output.

Bard AI angiver ikke sine kilder, men genererer opdaterede, dybdegående forklaringer ved at køre Google-søgeforespørgsler. Du får hovedpunkterne fra SERP'er.

ChatGPT er tilbøjelig til unøjagtigheder. Dens 2021-videngrænse forhindrer den i at besvare spørgsmål om seneste begivenheder og hændelser.

Opret nye måder at teste chatbots for nøjagtighed

AI er ikke alt og endegyldig teknologi. Mens sofistikerede AI-systemer og sprogmodeller udfører imponerende bedrifter, begår de også fejl og uoverensstemmelser. Se chatbots med skepsis. Du kan kun bruge AI-drevne platforme, hvis du forstår deres funktioner og begrænsninger.

Selvom der er snesevis af chatbots på tværs af platforme, kan deres pålidelighed og præcision måske skuffe dig. Du vil blot spilde tid på at teste dem. For at sikre kvalitetsresultater foreslår vi at fokusere på de tre mest robuste modeller på markedet: ChatGPT, Bing AI og Google Bard.