PaLM 2 bringer enorme opgraderinger til Googles LLM, men betyder det, at den nu kan gå tå-til-tå med OpenAI's GPT-4?
Google afslørede den næste generation af sin Pathways Language Model (PaLM 2) den 10. maj 2023 på Google I/O 2023. Dens nye store sprogmodel (LLM) kan prale af en masse forbedringer i forhold til sin forgænger (PaLM) og kan endelig være klar til at tage kampen op mod sin største rival, OpenAI's GPT-4.
Men hvor meget forbedring har Google lavet? Er PaLM 2 den forskel, som Google håber, den vil være, og endnu vigtigere, med så mange lignende funktioner, hvordan adskiller PaLM 2 sig fra OpenAI's GPT-4?
PaLM 2 vs. GPT-4: Ydeevneoversigt
PaLM 2 er spækket med nye og forbedrede funktioner over sin forgænger. En af de unikke fordele, PaLM 2 har i forhold til GPT-4, er, at den er tilgængelig i mindre størrelser, der er specifikke for visse applikationer, der ikke har så meget indbygget processorkraft.
Alle disse forskellige størrelser har deres egne mindre modeller kaldet Gecko, Otter, Bison og Unicorn, hvor Gecko er den mindste, efterfulgt af Otter, Bison og endelig Unicorn, den største model.
Google hævder også en forbedring af ræsonnementkapaciteter i forhold til GPT-4 i WinoGrande og DROP, hvor førstnævnte trækker en snæver margin i ARC-C. Der er dog betydelige forbedringer over hele linjen, når det kommer til PaLM og SOTA.
PaLM 2 er også bedre til matematik, ifølge Googles 91-side PaLM 2 forskningsartikel [PDF]. Den måde Google og OpenAI har struktureret deres testresultater på gør det dog svært at sammenligne de to modeller direkte. Google har også udeladt nogle sammenligninger, sandsynligvis fordi PaLM 2 ikke fungerede nær så godt som GPT-4.
I MMLU scorede GPT-4 86,4, mens PaLM 2 scorede 81,2. Det samme gælder HellaSwag, hvor GPT-4 scorede 95,3, men PaLM 2 kunne kun mønstre 86,8, og ARC-E, hvor GPT-4 og PaLM 2 fik 96,3 og 89,7, henholdsvis.
Den største model i PaLM 2-familien er PaLM 2-L. Selvom vi ikke kender dens nøjagtige størrelse, ved vi, at den er betydeligt mindre end den største PaLM-model, men bruger mere træningsdatabehandling. Ifølge Google, PaLM har 540 milliarder parametre, så den "betydeligt mindre" bør placere PaLM 2 hvor som helst mellem 10 og 300 milliarder parametre. Husk på, at disse tal kun er antagelser baseret på, hvad Google har sagt i PaLM 2-avisen.
Hvis dette tal er tæt på 100 milliarder eller derunder, er PaLM 2 højst sandsynligt mindre med hensyn til parametre end GPT-3.5. At overveje en model, der potentielt er under 100 milliarder, kan gå tå til tå med GPT-4 og endda slå den ved nogle opgaver, er imponerende. GPT-3.5 blæste i første omgang alt ud af vandet, inklusive PaLM, men PaLM 2 har klaret sig ret godt.
Forskelle i GPT-4 og PaLM 2 træningsdata
Selvom Google ikke har afsløret størrelsen af PaLM 2's træningsdatasæt, rapporterer virksomheden i sit forskningspapir, at det nye LLM's træningsdatasæt er væsentligt større. OpenAI tog også den samme tilgang, da han afslørede GPT-4, og fremsatte ingen påstande om størrelsen af træningsdatasættet.
Google ønskede dog at fokusere på en dybere forståelse af matematik, logik, ræsonnement og naturvidenskab, hvilket betyder, at en stor del af PaLM 2s træningsdata er fokuseret på de førnævnte emner. Google siger i sit papir, at PaLM 2's fortræningskorpus er sammensat af flere kilder, herunder webdokumenter, bøger, kode, matematik og samtaledata, hvilket giver det forbedringer over hele linjen, i det mindste sammenlignet med Håndflade.
PaLM 2's samtaleevner bør også være på et andet niveau, da modellen er blevet trænet på over 100 sprog for at give det en bedre kontekstuel forståelse og bedre oversættelse kapaciteter.
Så vidt GPT-4's træningsdata er bekræftet, har OpenAI fortalt os, at den har trænet modellen ved hjælp af offentligt tilgængelige data og de data, den licenserede. GPT-4's forskningsside udtaler: "Dataene er et datakorpus på web-skala, herunder korrekte og forkerte løsninger på matematiske problemer, svage og stærke ræsonnementer, selvmodsigende og konsekvente udsagn og repræsenterer en lang række ideologier og ideer."
Når GPT-4 bliver stillet et spørgsmål, kan det producere en bred vifte af svar, som ikke alle kan være relevante for din forespørgsel. For at tilpasse det til brugerens hensigt finjusterede OpenAI modellens adfærd ved hjælp af forstærkende læring med menneskelig feedback.
Selvom vi måske ikke kender de nøjagtige træningsdata, nogen af disse modeller blev trænet på, ved vi, at træningsintentionen var meget anderledes. Vi bliver nødt til at vente og se, hvordan denne forskel i træningsintentionen adskiller de to modeller i en implementering i den virkelige verden.
PaLM 2 og GPT-4 chatbots og tjenester
Den første portal til at få adgang til begge LLM'erne bruger deres respektive chatbots, PaLM 2's Bard og GPT-4's ChatGPT. Når det er sagt, så står GPT-4 bag en betalingsmur med ChatGPT Plus, og gratis brugere får kun adgang til GPT-3.5. Bard, på den anden side, er gratis for alle og tilgængelig i 180 lande.
Det betyder ikke, at du heller ikke kan få adgang til GPT-4 gratis. Microsofts Bing AI Chat bruger GPT-4 og er helt gratis, åben for alle og tilgængelig lige ved siden af Bing Search, Googles største rival i rummet.
Google I/O 2023 var fyldt med meddelelser om, hvordan PaLM 2 og generativ AI-integration vil forbedre Google Workspace erfaring med AI-funktioner, der kommer til Google Docs, Sheets, Slides, Gmail og næsten alle tjenester, som søgegiganten tilbyder. Derudover har Google bekræftet, at PaLM 2 allerede er blevet integreret i over 25 Google-produkter, herunder Android og YouTube.
Til sammenligning har Microsoft allerede bragt AI-funktioner til Microsoft Office-pakken af programmer og mange af dets tjenester. I øjeblikket kan du opleve begge LLM'er i deres egne versioner af lignende tilbud fra to rivaliserende virksomheder, der går head to head i AI-kampen.
Men siden GPT-4 kom tidligt ud og har været omhyggelig med at undgå mange af de fejl, Google lavede med den originale Bard, har det været de facto LLM for tredjepartsudviklere, startups og næsten alle andre, der ønsker at inkorporere en dygtig AI-model i deres tjeneste, så langt. Vi har en liste over GPT-4 apps, hvis du vil tjekke dem ud.
Dermed ikke sagt, at udviklere ikke vil skifte til eller i det mindste prøve PaLM 2, men Google er stadig nødt til at indhente OpenAI på den front. Og det faktum, at PaLM 2 er open source, i stedet for at være låst bag en betalt API, betyder, at den har potentialet til at blive mere udbredt end GPT-4.
Kan PaLM 2 tage imod GPT-4?
PaLM 2 er stadig meget ny, så svaret på, om den kan tage på GPT-4 eller ej, mangler at blive besvaret. Men med alt, hvad Google lover, og den aggressive måde, det har besluttet at bruge til at udbrede det, ser det ud til, at PaLM 2 kan give GPT-4 en chance for pengene.
GPT-4 er dog stadig en ganske kapabel model og slår, som før nævnt, PaLM 2 i en del sammenligninger. Når det er sagt, giver PaLM 2's flere mindre modeller den en uigendrivelig fordel. Gecko i sig selv er så let, at den kan fungere på mobile enheder, selv når den er offline. Dette betyder, at PaLM 2 kan understøtte en helt anden klasse af produkter og enheder, som måske har svært ved at bruge GPT-4.
AI-løbet varmer op
Med lanceringen af PaLM2 er kapløbet om AI-dominans blevet varmet op, da dette måske blot er den første værdige modstander, der går mod GPT-4. Med en nyere multimodal AI-model kaldet "Gemini", der også er under træning, viser Google ingen tegn på at bremse farten her.