GPT-4 er her, og det er de nye funktioner, du bør tjekke ud.

OpenAI har endelig lanceret sin længe ventede GPT-opdatering, GPT-4. Large Language Model (LLM) kommer med nogle kraftfulde nye funktioner og muligheder, som allerede har chokeret brugere over hele verden.

Ud over at være væsentligt bedre end GPT-3.5, kan den eksisterende LLM, der driver OpenAI's virale chatbot ChatGPT, GPT-4 forstå mere komplekse input, har en langt større tegninputgrænse, har multimodale kapaciteter og er angiveligt sikrere at brug.

1. GPT-4 kan forstå mere komplekse input

En af GPT-4s største nye funktioner er dens evne til at forstå mere komplekse og nuancerede prompter. Ifølge OpenAI, GPT-4 "udviser præstationer på menneskeligt niveau på forskellige faglige og akademiske benchmarks."

Dette blev demonstreret ved at sætte GPT-4 igennem adskillige eksamener på menneskeligt niveau og standardiserede tests, såsom SAT, BAR og GRE, uden specifik træning. Ikke alene forstod og løste GTP-4 disse tests med en relativt høj score over hele linjen, men den slog også sin forgænger, GPT-3.5, hver gang.

instagram viewer
Billedkredit: OpenAI

Evnen til at forstå mere nuancerede input-prompter er også hjulpet af det faktum, at GPT-4 har en meget større ordgrænse. Den nye model kan håndtere inputprompter på op til 25.000 ord (til kontekst var GPT-3.5 begrænset til 8.000 ord). Dette vil direkte påvirke de detaljer, som brugerne kan klemme ind i deres prompter, hvilket giver modellen meget mere information at arbejde med og producerer længerevarende output.

GPT-4 understøtter også over 26 sprog, herunder lav-ressource sprog som lettisk, walisisk og swahili. Når benchmarked på tre-skuds nøjagtighed på MMLU benchmark, slog GPT-4 GPT-3.5 såvel som andre førende LLM'er såsom PaLM og Chinchilla med hensyn til engelsksproget præstation på 24 sprog.

2. Multimodale kapaciteter

Den tidligere version af ChatGPT var begrænset til kun tekstbeskeder. I modsætning hertil er en af ​​GPT-4s nyeste funktioner dens multimodale muligheder. Modellen kan acceptere både tekst- og billedprompter.

Det betyder, at AI'en kan acceptere et billede som input og fortolke og forstå det ligesom en tekstprompt. Denne funktion spænder over alle størrelser og typer af billeder og tekst, inklusive dokumenter, der kombinerer de to, håndtegnede skitser og endda skærmbilleder.

GPT-4's billedlæsningsmuligheder rækker dog ud over blot at fortolke dem. OpenAI viste dette i sin udviklerstrøm (ovenfor), hvor de forsynede GPT-4 med en håndtegnet mockup af et vittighedswebsted. Modellen fik til opgave at skrive HTML- og JavaScript-kode for at gøre mockup'en til en hjemmeside, mens den erstattede vittighederne med faktiske.

GPT-4 skrev koden, mens han brugte layoutet angivet i mockup'en. Efter afprøvning producerede koden et fungerende websted med, som du kan gætte, faktiske vittigheder. Betyder det AI-fremskridt vil betyde enden på programmering? Ikke helt, men det er stadig en funktion, der vil være praktisk til at hjælpe programmører.

Hvor lovende denne funktion end ser ud, er den stadig i forskningseksempel og ikke offentligt tilgængelig. Derudover tager modellen meget tid at behandle visuelle input, hvor OpenAI selv siger, at det kan tage arbejde og tid at blive hurtigere.

3. Større styrbarhed

OpenAI hævder også, at GPT-4 har en høj grad af styrbarhed. Det har også gjort det sværere for AI at bryde karakter, hvilket betyder, at det er mindre sandsynligt, at det fejler, når det implementeres i en app til at spille en bestemt karakter.

Udviklere kan foreskrive deres AI's stil og opgave ved at beskrive retningen i "system"-meddelelsen. Disse meddelelser giver API-brugere mulighed for i høj grad at tilpasse brugeroplevelsen inden for visse grænser. Da disse beskeder også er den nemmeste måde at "jailbreak" modellen på, arbejder de også på at gøre dem mere sikre. Demoen til GPT-4 slog fast dette punkt ved at få en bruger til at forsøge at forhindre GPT-4 i at være en sokratisk underviser og besvare deres forespørgsel. Modellen nægtede dog at bryde karakteren.

4. Sikkerhed

OpenAI brugte seks måneder på at lave GPT-4 sikrere og mere tilpasset. Virksomheden hævder, at det er 82 % mindre tilbøjelige til at reagere på anmodninger om upassende eller på anden måde forbudt indhold, 29 % mere sandsynligt reagere i overensstemmelse med OpenAI's politikker på følsomme anmodninger og 40 % mere tilbøjelige til at producere faktuelle svar sammenlignet med GPT-3.5.

Det er ikke perfekt, og du kan stadig forvente, at det "hallucinerer" fra tid til anden og kan tage fejl i sine forudsigelser. Ganske vist har GPT-4 bedre opfattelser og forudsigelseskraft, men du skal stadig ikke stole blindt på AI.

5. Præstationsforbedringer

Ud over at evaluere modellens ydeevne på menneskelige eksamener, evaluerede OpenAI også botten på traditionelle benchmarks designet til maskinlæringsmodeller.

Den hævder, at GPT-4 "betydeligt overgår" eksisterende LLM'er og "de fleste state-of-the-art modeller." Disse benchmarks omfatter førnævnte MMLU, AI2 Reasoning Challenge (ARC), WinoGrande, HumanEval og Drop, som alle tester individuelle evner.

Du vil finde lignende resultater, når du sammenligner præstationer på akademiske visionsbenchmarks. Kørte test inkluderer VQAv2, TextVQA, ChartQA, AI2 Diagram (AI2D), DocVQA, Infographic VQA, TVQA og LSMDC, som alle topper GPT-4. OpenAI har dog udtalt, at GPT-4's resultater i disse test "ikke fuldt ud repræsenterer omfanget af dets muligheder", da forskere bliver ved med at finde nye og mere udfordrende ting, som modellen kan tackle.

Lille skridt til GPT-4, Giant Leap for AI

Med mere nøjagtighed, sikkerhed ved brug og avancerede funktioner er GPT-4 blevet frigivet til offentligheden via ChatGPT+ månedlige abonnementsplan, der koster 20 pr. måned. Derudover har OpenAI samarbejdet med forskellige organisationer for at begynde at bygge forbrugervendte produkter med GPT-4. Blandt andre Microsoft Bing, Duolingo, Stripe, Be My Eyes og Khan Academy har allerede implementeret GPT-4 i deres produkter.

GPT-4 kan være en trinvis opdatering i forhold til GPT-3.5, men det er en kæmpe gevinst for AI generelt. Efterhånden som modellen bliver mere tilgængelig, både for den gennemsnitlige bruger og udviklere gennem dens API, ser det ud til, at den vil være et godt argument for LLM-implementeringer på tværs af felter.