Du har sikkert hørt om OpenAI's GPT, men de er ikke de eneste LLM'er på blokken.
Nøgle takeaways
- OpenAIs GPT-4 er den mest avancerede og udbredte store sprogmodel med 1,76 billioner parametre og multimodale evner.
- Anthropics Claude 2 konkurrerer med GPT-4 i kreative skriveopgaver og holder stand på trods af færre ressourcer.
- Googles PaLM 2, selvom det ikke er en GPT-4-dræber, er en kraftfuld sprogmodel med stærke flersprogede og kreative evner. Falcon-180B er en open source-model, der konkurrerer med kommercielle giganter og kan stå tå-til-tå med GPT-3.5.
Det er AI-sæson, og teknologivirksomheder vælter store sprogmodeller som brød fra et bageri. Nye modeller frigives hurtigt, og det bliver for svært at holde styr på.
Men midt i mylderet af nye udgivelser er det kun få modeller, der er nået til tops og har vist sig som sande udfordrer i det store sprogmodelrum. Når vi nærmer os slutningen af 2023, har vi sammensat de seks mest imponerende store sprogmodeller, du bør prøve.
1. OpenAI's GPT-4
GPT-4 er den mest avancerede offentligt tilgængelige store sprogmodel til dato. Udviklet af OpenAI og udgivet i marts 2023, GPT-4 er den seneste iteration i Generative Pre-trained Transformer-serien der begyndte i 2018. Med sine enorme muligheder er GPT-4 blevet en af de mest udbredte og mest populære store sprogmodeller i verden.
Selvom det ikke er officielt bekræftet, anslår kilder, at GPT-4 kan indeholde svimlende 1,76 billioner parametre, omkring ti gange mere end sin forgænger, GPT-3.5, og fem gange større end Googles flagskib, PaLM 2. Denne massive skala muliggør GPT-4's multimodale evner, så den kan behandle både tekst og billeder som input. Som et resultat kan GPT-4 fortolke og beskrive visuel information som diagrammer og skærmbilleder ud over tekst. Dens multimodale natur giver en mere menneskelignende forståelse af data fra den virkelige verden.
I videnskabelige benchmarks overgår GPT-4 væsentligt andre moderne modeller på tværs af forskellige tests. Mens benchmarks alene ikke fuldt ud demonstrerer en models styrker, har virkelige use cases vist, at GPT-4 er usædvanligt dygtig til at løse praktiske problemer intuitivt. GPT-4 faktureres i øjeblikket til $20 pr. måned og tilgængelig via ChatGPTs Plus-plan.
2. Antropics Claude 2
Selvom det ikke er så populært som GPT-4, kan Claude 2, udviklet af Anthropic AI, matche GPT -4's tekniske benchmarks og den virkelige verdens ydeevne på flere områder. I nogle standardiserede tests, herunder udvalgte eksamener, klarer Claude 2 sig bedre end GPT-4. AI-sprogmodellen har også et langt overlegent kontekstvindue på omkring 100.000 tokens sammenlignet med GPT -4's 8k og 32k tokens modeller. Selvom større kontekstlængde ikke altid giver bedre ydeevne, giver Claude 2's udvidede kapacitet klare fordele, såsom at fordøje hele 75.000-ords bøger til analyse.
I den samlede ydeevne forbliver GPT-4 overlegen, men vores interne test viser, at Claude 2 overgår det i flere kreative skriveopgaver. Claude 2 følger også GPT-4 i programmerings- og matematikfærdigheder baseret på vores evalueringer, men udmærker sig ved at give menneskelignende, kreative svar. Da vi bad alle modellerne på denne liste om at skrive eller omskrive et kreativt stykke, seks gange ud af ti, valgte vi Claude 2's resultat for dets naturligt klingende menneskelignende resultater. I øjeblikket, Claude 2 er tilgængelig gratis gennem Claude AI chatbot. Der er også en $20 betalt plan for adgang til ekstra funktioner.
På trods af at have mindre økonomisk opbakning end giganter som OpenAI og Microsoft, holder Anthropics Claude 2 AI-model stand mod de populære GPT-modeller og Googles PaLM-serie. For en kunstig intelligens med færre ressourcer er Claude 2 imponerende konkurrencedygtig. Hvis tvunget til at satse på, hvilken eksisterende model der har den bedste chance for at konkurrere med GPT i den nærmeste fremtid, virker Claude 2 til at være den sikreste indsats. Selvom Claude 2's avancerede egenskaber ikke er skudt i finansiering, tyder det på, at den kan gå tå-til-tå med selv velfinansierede giganter (selvom det er værd at bemærke, at Google har ydet flere store bidrag til antropisk). Modellen slår over sin vægtklasse og viser lovende som en ny udfordrer.
3. OpenAI's GPT-3.5
Mens de er overskygget af udgivelsen af GPT-4, bør GPT-3.5 og dens 175 milliarder parametre ikke undervurderes. Gennem iterativ finjustering og opgraderinger med fokus på ydeevne, nøjagtighed og sikkerhed er GPT-3.5 kommet langt fra den originale GPT-3-model. Selvom den mangler GPT -4's multimodale muligheder og halter bagud i kontekstlængde og parameterantal, GPT-3.5 forbliver yderst kapabel, hvor GPT-4 er den eneste model, der kan overgå sin all-around ydeevne afgørende.
På trods af at det er en model i anden række i GPT-familien, kan GPT-3.5 holde sig selv og endda overgå Google og Metas flagskibsmodeller på flere benchmarks. I side-by-side test af matematiske og programmeringsevner mod Googles PaLM 2 var forskellene ikke skarpe, med GPT-3.5 endda med en lille fordel i nogle tilfælde. Mere kreative opgaver som humor og fortællende skrivning fik GPT-3.5 til at trække sig afgørende frem.
Så mens GPT-4 markerer en ny milepæl inden for kunstig intelligens, forbliver GPT-3.5 en imponerende kraftfuld model, der er i stand til at konkurrere med og nogle gange overgå selv de mest avancerede alternativer. Dens fortsatte forfining sikrer, at den forbliver relevant selv sammen med mere prangende næste generations modeller.
4. Googles PaLM 2
Når man evaluerer en AI-models muligheder, er den gennemprøvede formel at læse den tekniske rapport og tjek benchmarkscore, men tag alt, hvad du har lært med et gran salt, og test modellen dig selv. Selvom det virker modintuitivt, stemmer benchmark-resultater ikke altid med den virkelige verden for nogle AI-modeller. På papiret skulle Googles PaLM 2 være GPT-4-dræberen, med officielle testresultater, der tyder på, at den matcher GPT-4 på tværs af nogle benchmarks. Men i den daglige brug tegner der sig et andet billede.
Inden for logisk ræsonnement, matematik og kreativitet er PaLM 2 kort for GPT-4. Det halter også efter Anthropics Claude i en række kreative skriveopgaver. Men selvom den ikke lever op til sin fakturering som en GPT-4-morder, Googles PaLM 2 er fortsat en kraftfuld sprogmodel i sin egen ret, med enorme kapaciteter. Meget af den negative stemning omkring det stammer fra sammenligninger med modeller som GPT-4 snarere end direkte dårlig ydeevne.
Med 340 milliarder parametre er PaLM 2 blandt verdens største modeller. Det udmærker sig især ved flersprogede opgaver og besidder stærke matematiske og programmeringsevner. Selvom det ikke er den bedste til det, er PaLM 2 også ret effektiv til kreative opgaver som at skrive. Så selvom benchmarks tegnede et optimistisk billede, der ikke blev fuldt ud til virkelighed, demonstrerer PaLM 2 stadig imponerende AI-færdigheder, selvom det ikke overgår alle konkurrenter over hele linjen.
5. TII's Falcon-180B
Medmindre du har fulgt med i det hurtige tempo i AI-sprogmodeludgivelser, har du sandsynligvis aldrig stødt på Falcon-180B. Udviklet af UAE's Technology Innovation Institute, 180 milliarder parameteren Falcon-180 er en af de mest kraftfulde open source sprogmodeller derude, selvom det mangler navneanerkendelsen af GPT-modeller eller den udbredte brug af Meta's Lama 2. Men tag ikke fejl – Falcon-180B kan stå tå-til-tå med de bedste i klassen.
Benchmark-resultater afslører, at Falcon-180B klarer sig bedre end de fleste open source-modeller og konkurrerer med kommercielle juggernauts som f.eks. PaLM 2 og GPT-3.5. Ved afprøvning af matematik-, kodnings-, ræsonnement- og kreative skriveopgaver klarede det endda GPT-3.5 og PaLM 2 kl. gange. Hvis vi rangerer GPT-4, GPT-3.5 og Falcon-180B, ville vi placere Falcon-180B ligeligt mellem GPT-4 og GPT-3.5 på grund af dets styrker i flere tilfælde.
Selvom vi ikke med sikkerhed kan sige, at den er bedre end GPT-3.5 i overordnet ydeevne, er den en sag for sig selv. Selvom den er obskur, fortjener denne model opmærksomhed for at matche eller overgå mulighederne for bedre kendte alternativer. Du kan prøve Falcon-180B-modellen på Krammer ansigt (en open source LLM-platform).
Llama 2, Meta AI's 70 milliarder parametre store sprogmodel, bygger på sin forgænger, Llama 1. Selvom Llama 2 er mindre end førende modeller, overgår den markant de fleste offentligt tilgængelige open source LLM'er i benchmarks og brug i den virkelige verden. En undtagelse ville være Falcon-180B.
Vi testede Llama 2 mod GPT-4, GPT-3.5, Claude 2 og PaLM 2 for at måle dens muligheder. Ikke overraskende udklassede GPT-4 Llama 2 på tværs af næsten alle parametre. Imidlertid holdt Llama 2 stand mod GPT-3.5 og PaLM 2 i flere evalueringer. Selvom det ville være unøjagtigt at hævde, at Llama 2 er PaLM 2 overlegen, løste Llama 2 mange problemer, der stødte PaLM 2, inklusive kodningsopgaver. Claude 2 og GPT-3.5 klarede Llama 2 på nogle områder, men var kun afgørende bedre i et begrænset antal opgaver.
Så selvom det ikke overstiger mulighederne for de største proprietære modeller, open source Llama 2 slår over sin vægtklasse. For en åbent tilgængelig model demonstrerer den imponerende ydeevne og konkurrerer med AI-giganter som PaLM 2 i udvalgte evalueringer. Llama 2 giver et glimt af det fremtidige potentiale for open source sprogmodeller.
Ydeevnegabet mellem AI-modeller bliver mindre
Selvom AI-landskabet udvikler sig i et voldsomt tempo, forbliver OpenAI's GPT-4 lederen af flokken. Men mens GPT-4 forbliver uovertruffen i skala og ydeevne, viser modeller som Claude 2, at med nok færdigheder kan mindre modeller konkurrere på udvalgte områder. Googles PaLM 2, på trods af at den ikke lever op til nogle høje forventninger, udviser stadig dybtgående egenskaber. Og Falcon-180B beviser, at open source-initiativer kan stå skulder-ved-skulder med industrititaner givet tilstrækkelige ressourcer.