Brugere får typisk adgang til store sprogmodeller (LLM'er) gennem brug af en brugergrænseflade gennem en API. Selvom det giver flere fordele, introducerer brug af API'er også begrænsninger, såsom behovet for konstant internet forbindelse, begrænsede tilpasninger, mulige sikkerhedsproblemer og virksomheder, der begrænser modelkapaciteter gennem en betalingsvæg.

Med kvantificerede LLM'er, der nu er tilgængelige på HuggingFace, og AI-økosystemer såsom H20, Text Gen og GPT4All giver dig mulighed for at indlæse LLM-vægte på din computer, har du nu mulighed for en gratis, fleksibel og sikker AI.

For at komme i gang er her syv af de bedste lokale/offline LLM'er, du kan bruge lige nu!

1. Hermes GPTQ

En avanceret sprogmodel finjusteret ved hjælp af et datasæt med 300.000 instruktioner fra Nous Research. Hermes er baseret på Metas LlaMA2 LLM og blev finjusteret ved at bruge for det meste syntetiske GPT-4-udgange.

Model

Hermes 13b GPTQ

Model Størrelse

7,26 GB

Parametre

13 mia

Kvantisering

4-bit

Type

LlaMA2

Licens

GPL 3

instagram viewer

Brugen af ​​LlaMA2 som sin basismodel giver Hermes mulighed for at fordoble kontekststørrelsen eller en maksimal tokenstørrelse på 4.096. Ved at parre den lange kontekststørrelse og en koderarkitektur er Hermes kendt for at give lange svar og lave hallucinationshastigheder. Dette gør Hermes til en fantastisk model til forskellige naturlig sprogbehandling (NLP) opgaver, såsom at skrive kode, skabe indhold og være chatbot.

Der er flere kvantiseringer og versioner af den nye Hermes GPTQ. Vi vil anbefale dig først at prøve Hermes-Llama2 13B-GPTQ-modellen, da det er den nemmeste version at implementere, mens den stadig har en fantastisk ydeevne.

2. Falcon Instruct GPTQ

Billedkredit: John Schnobrich/Unsplash

Denne kvantificerede version af Falcon er baseret på den kun dekoder-arkitektur finjusteret oven på TII's rå Flacon-7b-model. Base Falcon-modellen blev trænet ved hjælp af enestående 1,5 billioner tokens hentet på det offentlige internet. Som en instruktionsbaseret dekodermodel, der er licenseret under Apache 2, er Falcon Instruct perfekt til små virksomheder, der leder efter en model til sprogoversættelse og dataindtastning.

Model

Falcon-7B-Instruct

Model Størrelse

7,58 GB

Parametre

7 mia

Kvantisering

4-bit

Type

Falk

Licens

Apache 2.0

Denne version af Falcon er dog ikke ideel til finjustering og er kun til inferencing. Hvis du vil finjustere Falcon, bliver du nødt til at bruge råmodellen, som kan kræve adgang til virksomhedskvalitet træningshardware såsom NVIDIA DGX eller AMD Instinct AI Acceleratorer.

3.GPT4ALL-J Groovy

Billedkredit: Nubelson Fernandes/Unplash

GPT4All-J Groovy er en dekoder-kun-model finjusteret af Nomic AI og licenseret under Apache 2.0. GPT4ALL-J Groovy er baseret på den originale GPT-J model, som er kendt for at være fantastisk til tekstgenerering fra opfordringer. GPT4ALL -J Groovy er blevet finjusteret som en chatmodel, som er fantastisk til hurtige og kreative tekstgenereringsapplikationer. Dette gør GPT4All-J Groovy ideel til indholdsskabere med at hjælpe dem med at skrive og kreative værker, uanset om det er poesi, musik eller historier.

Model

GPT4ALL-J Groovy

Model Størrelse

3,53 GB

Parametre

7 mia

Kvantisering

4-bit

Type

GPT-J

Licens

Apache 2.0

Desværre blev basis-GPT-J-modellen trænet på et datasæt, der kun er engelsk, hvilket betyder, at selv denne finjusterede GPT4ALL-J-model kun kan chatte og udføre tekstgenereringsapplikationer på engelsk.

4.WizardCoder-15B-GPTQ

Billedkredit: James Harrison/Unsplash

Leder du efter en model, der er specifikt finjusteret til kodning? Trods dens væsentligt mindre størrelse er WizardCoder kendt for at være en af ​​de bedste kodningsmodeller, der overgår andre modeller såsom LlaMA-65B, InstructCodeT5+ og CodeGeeX. Denne model blev trænet ved hjælp af en kodningsspecifik Evol-Instruct-metode, som automatisk redigerer dine prompter til at være en mere effektiv kodningsrelateret prompt, som modellen bedre kan forstå.

Model

WizardCoder-15B-GPTQ

Model Størrelse

7,58 GB

Parametre

15 mia

Kvantisering

4-bit

Type

LlaMA

Licens

bigcode-openrail-m

Da WizardCoder er kvantiseret til en 4-bit model, kan WizardCoder nu bruges på almindelige pc'er, hvor enkeltpersoner kan bruge den til eksperimenter og som kodningsassistent til enklere programmer og scripts.

5. Wizard Vicuna Uncensureret-GPTQ

Wizard-Vicuna GPTQ er en kvantiseret version af Wizard Vicuna baseret på LlaMA-modellen. I modsætning til de fleste LLM'er, der er udgivet til offentligheden, er Wizard-Vicuna en ucensureret model med dens justering fjernet. Det betyder, at modellen ikke har de samme sikkerheds- og moralske standarder som de fleste modeller.

Model

Wizard-Vicuna-30B-Ucensureret-GPTQ

Model Størrelse

16,94 GB

Parametre

30 mia

Kvantisering

4-bit

Type

LlaMA

Licens

GPL 3

Selvom muligvis udgør en AI-justeringskontrolproblem, at have en ucensureret LLM bringer også det bedste frem af modellen ved at få lov til at svare uden nogen begrænsninger. Dette giver også brugerne mulighed for at tilføje deres tilpassede justering af, hvordan AI'en skal handle eller svare baseret på en given prompt.

6. Orca Mini-GPTQ

Billedkredit: Alex Kondratiev/Unsplash

Ønsker du at eksperimentere med en model, der er trænet i en unik læringsmetode? Orca Mini er en uofficiel modelimplementering af Microsofts Orca-forskningspapirer. Den blev trænet ved hjælp af lærer-elev læringsmetoden, hvor datasættet var fyldt med forklaringer i stedet for kun opfordringer og svar. Dette burde i teorien resultere i en klogere studerende, hvor modellen kan forstå problemet i stedet for blot at lede efter input- og outputpar, som hvordan typiske LLM'er fungerer.

Model

Orca Mini-GPTQ

Model Størrelse

8,11 GB

Parametre

3 mia

Kvantisering

4-bit

Type

LlaMA

Licens

MIT

Med kun tre milliarder parametre er Orca Mini GPTQ nem at køre selv på mindre kraftfulde systemer. Denne model bør dog ikke bruges til noget professionelt, da den genererer falsk information, partiske og stødende svar. Denne model skal bruges til at lære og eksperimentere med Orca og dens metoder.

7.LlaMA 2 Chat GPTQ

LlaMA 2 er efterfølgeren til den originale LlaMA LLM, som affødte de fleste modeller på denne liste. LlaMA 2 er en samling af flere LLM'er, der hver er trænet ved hjælp af 7-70 milliarder parametre. Samlet set blev LlaMA 2 fortrænet ved hjælp af 2 billioner tokens af data taget fra offentligt tilgængelige instruktionsdatasæt.

Model

Falcon-40B-Instruct-GPTQ

Model Størrelse

7,26 GB

Parametre

3 mia

Kvantisering

4-bit

Type

ÅbenLlaMA

Licens

EULA (Meta-licens)

LlaMA 2 er beregnet til at blive brugt til kommerciel og forskningsmæssig brug. Som sådan er denne model bedst brugt efter finjustering for bedre ydeevne på specifikke opgaver. Denne specifikke LlaMA 2 chat GPTQ-model er blevet finjusteret og optimeret til engelsk dialog, hvilket gør den den perfekte model for virksomheder og organisationer som chatbot med lidt eller ingen ekstra træning påkrævet. Ifølge vilkårene kan virksomheder med mindre end 700 millioner brugere bruge LlaMA 2 uden at betale noget licensgebyr fra Meta eller Microsoft.

Prøv lokale store sprogmodeller i dag

Nogle af de ovennævnte modeller har flere versioner med hensyn til parametre. Generelt giver versioner med højere parameter bedre resultater, men kræver mere kraftfuld hardware, mens versioner med lavere parameter vil generere resultater af lavere kvalitet, men kan køre på hardware i lavere ende. Hvis du er usikker på, om din pc kan køre modellen, så prøv først at vælge den lavere parameterversion, og fortsæt derefter, indtil du føler, at ydeevnefaldet ikke længere er acceptabelt.

Da de kvantificerede modeller på denne liste kun optager et par gigabyte plads og modelimplementeringsplatforme som GPT4All og Text-Generation-WebUI kan nemt installeres gennem deres et-klik-installationsprogrammer, at prøve flere modeller og modelversioner burde ikke tage meget tid og kræfter.

Så hvad venter du på? Prøv en lokal model i dag!