Store sprogmodeller (LLM'er) kommer i alle former og størrelser og vil hjælpe dig på enhver måde, du finder passende. Men hvad er bedst? Vi sætter de dominerende AI'er fra Alphabet, OpenAI og Meta på prøve.
Hvad du behøver at vide om AI Chatbots
Kunstig generel intelligens har været et mål for dataloger i årtier, og kunstig intelligens har fungeret som en grundpille for science fiction-forfattere og filmskabere i endnu længere tid.
AGI udviser intelligens svarende til menneskelige kognitive evner, og Turing-testen-en test af en maskines evne til at udvise intelligent adfærd, der ikke kan skelnes fra et menneskes - forblev næsten uanfægtet i de syv årtier, der er gået siden den første gang blev oprettet.
Den nylige konvergens af ekstremt storstilet databehandling, enorme mængder penge og den forbløffende mængde information frit tilgængelig på det åbne internet gjorde det muligt for teknologigiganter at træne modeller, der kan forudsige det næste ordafsnit – eller token – i en sekvens af tokens.
I skrivende stund begge dele Googles Bard og OpenAI's ChatGPT er tilgængelige for dig at bruge og teste gennem deres webgrænseflader.
Metas sprogmodel, LLaMa, er ikke tilgængelig på nettet, men du kan sagtens download og kør LLaMa på din egen hardware og brug det via en kommandolinje eller køre Dalai på din egen maskine—en af flere apps med en brugervenlig grænseflade.
Med henblik på testen kører vi Stanford Universitys Alpaca 7B-model – en tilpasning af LLaMa – og stiller den op imod Bard og ChatGPT.
Følgende sammenligninger og test er ikke beregnet til at være udtømmende, men giver dig snarere en indikation af nøglepunkter og muligheder.
Hvilken er den nemmeste store sprogmodel at bruge?
Både Bard og ChatGPT kræver en konto for at bruge tjenesten. Både Google- og OpenAI-konti er nemme og gratis at oprette, og du kan straks begynde at stille spørgsmål.
Men for at køre LLaMa lokalt skal du have noget specialiseret viden eller evnen til at følge en tutorial. Du skal også bruge en betydelig mængde lagerplads.
Hvilken er den mest private store sprogmodel?
Både Bard og ChatGPT har omfattende privatlivspolitikker, og Google understreger gentagne gange i sine dokumenter at du ikke bør inkludere oplysninger, der kan bruges til at identificere dig eller andre i din Bard samtaler."
Som standard indsamler Google dine samtaler og din generelle placering baseret på din IP-adresse, din feedback og brugsoplysninger. Disse oplysninger gemmes på din Google-konto i op til 18 måneder. Selvom du kan holde pause med at gemme din Bard-aktivitet, skal du være opmærksom på, at "for at hjælpe med kvalitet og forbedre vores produkter, læser, kommenterer og behandler menneskelige anmeldere dine Bard-samtaler."
Brug af Bard er også underlagt standarden Googles privatlivspolitik.
OpenAIs privatlivspolitik er stort set ens og indsamler IP-adresse og brugsdata. I modsætning til Googles tidsbegrænsede opbevaring vil OpenAI "kun opbevare dine personlige oplysninger så længe, som vi har brug for for at kunne levere vores Tjeneste til dig eller til andre legitime forretningsformål såsom løsning af tvister, sikkerheds- og sikkerhedsårsager eller overholdelse af vores juridiske forpligtelser."
I modsætning hertil kræver en lokal model på din egen maskine ikke en konto eller deler brugerdata med nogen.
Hvilken LLM har den bedste generelle viden?
For at teste, hvilken LLM der har den bedste generelle viden, stillede vi tre spørgsmål.
Det første spørgsmål, "Hvilket nationalflag har fem sider?" blev kun besvaret korrekt af Bard, som identificerede Nepals nationale flag som at have fem sider.
ChatGPT hævdede selvsikkert, at "Der er intet nationalt flag, der har fem sider. Nationalflag er typisk rektangulære eller kvadratiske i form, kendetegnet ved deres forskellige farver, mønstre og symboler".
Vores lokale model kom tæt på og sagde, at "Det indiske nationalflag har fem sider og blev designet i 1916 til at repræsentere Indiens uafhængighedsbevægelse." Selvom dette flag eksisterede og havde fem sider, var det flaget for den indiske hjemmestyrebevægelse - ikke en national flag.
Ingen af vores modeller kunne svare, at den korrekte betegnelse for et ærteformet objekt er "pisiform", med ChatGPT i gang så langt som at antyde, at ærter har en "tredimensionel geometrisk form, der er perfekt rund og symmetrisk."
Alle tre chatbots identificerede korrekt Franco Malerba som en italiensk astronaut og medlem af Europa-Parlamentet, hvor Bard giver et svar formuleret identisk til et afsnit af Malerbas Wikipedia indgang.
Hvilken LLM er god til tekniske instruktioner?
Når du har tekniske problemer, kan du blive fristet til at henvende dig til en chatbot for at få hjælp. Mens teknologien går videre, forbliver nogle ting de samme. BS 1363 elektriske stik har været i brug i Storbritannien, Irland og mange andre lande siden 1947. Vi spurgte sprogmodellerne, hvordan man kobler det korrekt op.
Kabler, der tilsluttes stikket, har en strømførende ledning (brun), en jordledning (gul/grøn) og en neutral ledning (blå). Disse skal fastgøres til de korrekte terminaler i stikhuset.
Vores Dalai-implementering identificerede korrekt stikket som "engelsk-stil", gik derefter ud af kurs og gav i stedet instruktioner til det ældre runde BS 546-stik sammen med ældre ledningsfarver.
ChatGPT var lidt mere hjælpsom. Den mærkede ledningsfarverne korrekt og gav en materialeliste og et sæt med otte instruktioner. ChatGPT foreslog også at sætte den brune ledning ind i terminalen mærket "L", den blå ledning i "N" terminal, og den gule ledning ind i "E". Dette ville være korrekt, hvis BS1363-terminaler var mærket, men de er det ikke.
Bard identificerede de korrekte farver til ledningerne og instruerede os i at forbinde dem til Live, Neutral og Earth terminaler. Den gav ingen instruktioner om, hvordan man identificerer disse.
Efter vores mening. ingen af chatbotsene gav tilstrækkelige instruktioner til at hjælpe nogen med at tilslutte et BS 1363 elektrisk stik korrekt. Et kortfattet og korrekt svar ville være: "Blå til venstre, brun til højre."
Hvilken LLM er god til at skrive kode?
Python er et nyttigt programmeringssprog der kører på de fleste moderne platforme. Vi instruerede vores modeller i at bruge Python og "Byg et grundlæggende regneprogram, der kan udføre aritmetiske operationer som addition, subtraktion, multiplikation og division. Det skal tage brugerinput og vise resultatet." Dette er en af de bedste programmeringsprojekter for begyndere.
Mens både Bard og ChatGPT øjeblikkeligt returnerede brugbar og grundigt kommenterede kode, som vi var i stand til at teste og verificere, ville ingen af koden fra vores lokale model køre.
Hvilken LLM fortæller de bedste vittigheder?
Humor er en af de grundlæggende elementer i at være menneske og helt sikkert en af de bedste måder at skelne menneske og maskine fra hinanden. Til hver af vores modeller gav vi den enkle prompt: "Opret en original og sjov joke."
Heldigvis for komikere overalt og menneskeheden som helhed, var ingen af modellerne i stand til at skabe en original joke.
Bard udrullede klassikeren, "Hvorfor vandt fugleskræmselet en pris? Han var fremragende på sit felt".
Både vores lokale implementering og ChatGPT tilbød det stønværdige: "Hvorfor stoler videnskabsmænd ikke på atomer? For de udgør alt!"
En afledt, men original vittighed ville være, "Hvordan er store sprogmodeller som atomer? De finder begge på tingene!"
I læste det her først, folkens.
Ingen chatbot er perfekt
Vi fandt ud af, at selvom alle tre store sprogmodeller har deres fordele og ulemper, kan ingen af dem erstatte et menneskes reelle ekspertise med specialiseret viden.
Mens både Bard og ChatGPT gav bedre svar på vores kodningsspørgsmål og er meget nemme at bruge, at køre en stor sprogmodel lokalt betyder, at du ikke behøver at bekymre dig om privatlivets fred eller censur.
Hvis du gerne vil skabe fantastisk AI-kunst uden at bekymre dig om, at nogen kigger dig over skulderen, er det også nemt at køre en art AI-model på din lokale maskine.