Populariteten af ​​ChatGPT er et bevis på, hvor langt naturlig sprogbehandling (NLP) er nået. Transformerarkitekturmodeller som GPT-3, GPT-4 og BERT er i stand til menneskelignende samtaler, og nogle kan endda bruges til at skrive kompleks kode.

Mens GPT er markedsleder, var BERT faktisk den første sprogmodel, der kom på banen i 2018. Men hvilken er bedre? Og hvad er forskellen mellem GPT og BERT?

Forklaring af GPT-3 og GPT-4

GPT-3 (Generative Pre-trained Transformer 3) er en autoregressiv sprogmodel lanceret af OpenAI i juni 2020. Den bruger en transformerarkitektur med 175 milliarder parametre, hvilket gør den til en af ​​de største sprogmodeller, der nogensinde er konstrueret.

GPT-3 kan generere tekst i naturligt sprog, samt besvare spørgsmål, digte og endda skrive komplette artikler. ChatGPT er et godt eksempel på generativ kunstig intelligens drevet af GPT.

Det er blevet betragtet som en game-changer for naturlig sprogbehandling, og det har en bred vifte af potentielle applikationer, herunder chatbots, sprogoversættelse og indholdsoprettelse.

instagram viewer

GPT-4 er den nyeste og største i rækken af ​​GPT-modeller, og er tilgængelig, hvis du har et ChatGPT Plus-abonnement. GPT-4 er seks gange større end GPT-3-modellen med anslået en billion parametre, hvilket gør den meget mere nøjagtig.

Hvad er BERT?

BERT (Bidirectional Encoder Representations from Transformers) er en sprogrepræsentationsmodel før træning, der finjusterer NLP-applikationer skabt af Google i 2018. I modsætning til andre NLP-modeller, der bruger ensrettet opmærksomhedsflow, bruger BERT tovejsflow, som gør det muligt at bruge kontekst fra begge retninger under behandlingen.

Dette giver modellen mulighed for at forstå betydningen af ​​ord i kontekst og til gengæld bedre forstå sprogstrukturer. Med BERT kan Google nu levere mere nøjagtige søgeresultater for komplekse forespørgsler – især dem, der er afhængige af præpositioner som "for", "til" og "fra".

De vigtigste forskelle mellem GPT og BERT

Nu hvor du har en kort idé om GPT og BERT, lad os diskutere de vigtigste forskelle mellem disse to sprogmodeller.

Arkitektur

Arkitektur refererer til de mange lag, der danner en maskinlæringsmodel. GPT og BERT bruger forskellige modeller. BERT er designet til tovejskontekstrepræsentation, hvilket betyder, at den behandler tekst fra både venstre-til-højre og højre-til-venstre, hvilket giver den mulighed for at fange kontekst fra begge retninger.

I modsætning hertil læser mennesker tekst fra venstre mod højre (eller højre mod venstre, afhængigt af din lokalitet). BERT trænes ved hjælp af et maskeret sprogmodelleringsmål, hvor nogle ord i en sætning maskeres, og modellen har til opgave at forudsige de manglende ord baseret på den omgivende kontekst.

Denne præ-træningsmetode giver BERT mulighed for at lære dybe kontekstualiserede repræsentationer, hvilket gør den yderst effektiv til NLP-opgaver som følelsesanalyse, besvarelse af spørgsmål og genkendelse af navngivne enheder.

I modsætning hertil er GPT en autoregressiv model, hvilket betyder, at den genererer tekst sekventielt fra venstre mod højre og forudsiger det næste ord i en sætning baseret på de ord, der kom før det.

GPT trænes ved at bruge et ensrettet (kausalt) sprogmodelleringsmål, hvor det forudsiger det næste ord givet konteksten af ​​tidligere ord. Det er en af ​​hovedårsagerne til, at GPT er så populær til generering af indhold.

Træningsdata

BERT og GPT er forskellige i de typer træningsdata, de bruger. BERT trænes ved hjælp af en maskeret sprogmodel, hvilket betyder, at visse ord er maskeret, og algoritmen skal forudsige, hvad det næste ord sandsynligvis vil være. Dette hjælper med at træne modellen og gør den mere kontekstuelt nøjagtig.

Ligesom GPT er BERT trænet på et stort korpus af tekst. Originalen blev trænet på den engelske Wikipedia og BooksCorpus, et datasæt indeholdende cirka 11.000 upublicerede bøger, som svarer til omkring 800 millioner ord, fra forskellige genrer som skønlitteratur, videnskab og edb.

BERT kan fortrænes på forskellige sprogmodeller, hvilket, som nævnt ovenfor, gør det muligt at træne den til specifikke applikationer, med den ekstra mulighed for at finjustere denne fortrænede model.

Omvendt blev GPT-3 trænet på WebText-datasættet, et storstilet korpus indeholdende websider fra kilder som Wikipedia, bøger og artikler. Det inkluderer også tekst fra Common Crawl, et offentligt tilgængeligt arkiv med webindhold. Og den kan også finjusteres til specifikke formål.

Hvad angår GPT-4, er information om træningsdata en smule sparsom, men det er ret sandsynligt, at GPT-4 trænes på et tilsvarende forskelligartet datasæt, evt. herunder nyere kilder og en endnu større mængde data for at forbedre dens forståelse af naturligt sprog og dens evne til at generere kontekstuelt relevant svar.

Brug Cases

Selvom begge er meget alsidige NLP-modeller, adskiller deres arkitektoniske forskelle dem på nogle få måder. For eksempel er BERT langt bedre i stand til følgende brugssager:

  1. Følelsesanalyse: BERT kan bedre forstå den overordnede følelse af en given tekst, da den analyserer ord i begge retninger.
  2. Navngivet enhedsgenkendelse: BERT er i stand til at genkende forskellige entiteter i et specifikt stykke tekst, herunder steder, personer eller organisationer.
  3. Besvarelse af spørgsmål: På grund af dets overlegne forståelsesevner er BERT mere i stand til at udtrække information fra tekst og besvare spørgsmål præcist.

GPT-læringsmodellen er heller ikke sløj. Selvom sentimentanalyse måske ikke er dens forte, udmærker GPT sig i flere andre applikationer:

  1. Indholdsoprettelse: Hvis du har brugt ChatGPT, ved du sikkert allerede om dette. Når det kommer til indholdsskabelse, overliste GPT de fleste andre modeller. Bare skriv en prompt, og den vil give et perfekt sammenhængende (men ikke altid præcist) svar.
  2. Opsummerende tekst: Bare copy-paste en stor tekstblok i ChatGPT og bed den om at opsummere den. Det er i stand til at opsummere tekst og samtidig bevare kerneinformationen.
  3. Maskinoversættelse: GPT kan finjusteres til at oversætte tekst fra et sprog til et andet, takket være dets evne til at generere tekst baseret på kontekst.

Anvendelighed

I modsætning til ChatGPT, som lader enhver udnytte GPT-modellen, er BERT ikke så let tilgængelig. Først skal du downloade den oprindeligt offentliggjorte Jupyter notesbog for BERT og derefter opsætte et udviklingsmiljø ved hjælp af Google Colab eller TensorFlow.

Hvis du ikke vil bekymre dig om at bruge en Jupyter notesbog eller ikke er så teknisk, kan du overveje at bruge ChatGPT, hvilket er så simpelt som bare at logge ind på et websted. Vi har dog også dækket hvordan man bruger Jupyter Notebook, hvilket burde give dig et godt udgangspunkt.

BERT og GPT viser AI's muligheder

BERT og GPT træningsmodeller er klare eksempler på, hvad kunstig intelligens er i stand til. ChatGPT er mere populært og har allerede resulteret i flere yderligere applikationer, såsom Auto-GPT, som forstyrrer arbejdsgange og ændrer jobfunktioner.

Selvom der er skepsis omkring AI-adoption, og hvad det kan betyde for job, er potentialet til det gode også der. Mange virksomheder som Google og OpenAI arbejder allerede på at etablere kontroller og yderligere regulere AI-teknologien, hvilket kunne love godt for fremtiden.