Læsere som dig hjælper med at støtte MUO. Når du foretager et køb ved hjælp af links på vores websted, kan vi optjene en affiliate-kommission. Læs mere.

OpenAI's Whisper er en ny AI-drevet løsning, der kan forvandle din stemme til tekst. Det bedste af det hele er, at det koster nul.

Der er dog en hage: det er mere udfordrende at installere og bruge end dit gennemsnitlige Windows-værktøj. Især hvis du vil bruge din Nvidia GPU's Tensor Cores til at give den et flot boost.

Bliv dog ikke bekymret. Det er derfor, vi er her! Læs videre for at finde ud af, hvordan du installerer og bruger det, men også, hvis du ejer en, for at få Whisper til at drage fordel af din Nvidia GPU.

Hvad er OpenAI's Whisper?

ChatGPT er i højsædet i dag, og det har vi allerede set hvordan du kan bruge ChatGPT af OpenAI. Og alligevel er det ikke det eneste interessante projekt fra OpenAI.

Drevet af dyb læring og neurale netværk er Whisper et naturligt sprogbehandlingssystem, der kan "forstå" tale og transskribere det til tekst. Men det er også sin egen ting, der sidder på et sted lige blandt alle lignende løsninger:

instagram viewer
  • Whisper er en AI-løsning "trænet" på naturligt sprog. Så det er bedre til at forstå "normal" menneskelig tale end ældre løsninger.
  • Whisper kommer ikke med en grænseflade, og den kan heller ikke optage lyd. Det kan kun tage eksisterende lydfiler og output tekstfiler.
  • Da den er god til at "give mening med sproget", har Whisper også superkraften til automatisk oversættelse i et enkelt trin.
  • Whisper er ikke en onlinetjeneste og kan fungere helt offline.
  • Hvis du har en relativt moderne Nvidia GPU (GTX970 eller nyere), kan Whisper køre i "hardware accelereret tilstand" for at øge dens hastighed.
  • Der er intet krav om at registrere, købe en licens eller købe et abonnement.

Hvorfor understøttes AMD GPU'er ikke?

For at GPU'er skal være nyttige til mere end grafik, skal de fungere som fuldt programmerbare processorer. Det er derfor, Nvidia skabte CUDA, officielt anset som "en parallel computerplatform og programmeringsmodel". For at lære mere om CUDA og relateret hardware ("CUDA-kerner"), læs vores artikel om hvad er CUDA-kerner, og hvordan de forbedrer pc-spil.

CUDA er proprietær Nvidia-teknologi, kun kompatibel med Nvidia GPU'er. De nærmeste alternativer til AMD's hardware er OpenCL og Radeon Compute Platform. For at lære mere om, hvordan hver virksomheds løsninger sammenligner, kan du tjekke vores artikel om AMD Compute Units vs. Nvidia CUDA-kerner.

Sammenlignet med alternativerne anses CUDA for at være mere modent, mere effektivt og lettere at bruge. De fleste udviklere retter sig således kun mod CUDA, hvilket igen betyder, at deres software kun udnytter hardwarefunktionerne på Nvidia GPU'er. Og det inkluderer Whisper.

Sådan downloades og installeres Whisper

Desværre er Whisper ikke en selvstændig app, du kan downloade, installere og køre. Den er afhængig af anden software, som også skal installeres.

For Windows, for at holde denne vejledning enkel, vil vi bruge Chocolatey i vid udstrækning til at installere de fleste af de nødvendige softwaredele. Tjek vores guide på den hurtigste måde at installere Windows-software på for mere info om Chokolade.

For Linux og Mac skal installationsprocessen (undtagen Windows-stivariablen og brugervenlige batchfiler, vi opretter) være ens.

  1. For at installere og bruge Whisper skal du have Python ogdet er PIP værktøj installeret og tilføjet til Windows "Sti"-variablen. For information om det, tjek vores artikel om hvordan man installerer Python PIP på Windows, Mac og Linux.
  2. Installere FFMPEG gennem Chocolatey med denne kommando:
    chokolade installere ffmpeg
    Installer også dens Python-version med:
    pip3 installere python-ffmpeg
  3. Til sidst skal du installere Whisper fra sin Github-side med:
    pip3 installer git+https://github.com/openai/whisper.git

Får Whispers CUDA-aktiverede version

Selvom Whisper ikke bruger Nvidia GPU'er, er den fakkel pakke, den er afhængig af, tilbyder en CUDA-accelereret version. Brug af denne i stedet for den "almindelige" version kan hjælpe Whisper med at fuldføre sine transskriptioner meget hurtigere ved hjælp af din Nvidia GPU.

For at få Whisper til at bruge CUDA-kernerne på din Nvidia GPU:

  1. Hvis du allerede har "vanilla"-versionen af ​​lommelygten installeret, skal du afinstallere og rense rester af den med:
    pip3 afinstallere fakkel
    Når det er gjort, følg det op med:
    pip cacheudrensning
  2. Installer faklens CUDA-aktiverede version med:
    pip3 installere torch torchvision torchaudio --extra-indeks-url https://download.pytorch.org/whl/cu117
  3. For at kontrollere, om Whisper kan bruge din Nvidia GPU, skal du bruge:
    hviske --hjælp | findstr -i pytorch
    Du burde se (standard: cuda) i stedet for (standard: cpu).

Hvad skal man gøre, hvis Torch ikke kan installeres

Hvis du støder på fejlen "ingen version fundet", mens du installerer lommelygte, skal du muligvis installere en ældre version af Python parallelt med din nuværende.

Brug denne kommando til at gøre det:

chokolade installere python --version OLDER_VERSION --side-by-side

Erstat "OLDER_VERSION" med en version som 3.10.

Brug derefter stien til den sekundære version til alle "generiske" Whisper-kommandoer (f.eks. "c:\Python310\Scripts\pip.exe" i stedet for blot "pip").

Sådan optager du din stemme

Du kan bruge enhver lydoptagelsesapp til at omdanne din stemme til en WAV- eller MP3-fil. Windows inkluderer en sådan app - for mere information om det, se hvordan man bruger Windows 10 Voice Recorder-appen.

For en mere komplet mulighed, prøv Audacity. Lær hvordan du gør det med vores guide på hvordan man bruger Audacity til at optage lyd på Windows og Mac.

Sådan begynder du at transskribere med Whisper

Selvom Whisper ikke kommer med en brugervenlig GUI, er brugen ultrasimpel.

Lad os sige, at vi har filen Seneste note.mp3 som indeholder tale på græsk, i mappe c:\MyAudioFiles, og ønsker at oversætte det til engelsk og transskribere det til en tekstfil.

  1. Vi begynder med at løbe Kommandoprompt eller PowerShell.
  2. Vi "skifter mappe", hvor lydfilen er gemt med denne kommando:
    cd C:\MyAudioFiles
  3. Vi slipper Whisper løs på filen med:
    hviske--modelgrundlag--Sproggr--opgaveOversætteSeneste bemærkning.mp3

Når den er behandlet, vil tekstfilen (med navnet "LatestNote.mp3.txt") vises i den samme mappe. Åbn det i en teksteditor som f.eks Notesblok for at se den oversatte tekst.

Vi brugte et oversættelseseksempel, fordi engelsk transskription er endnu mere ligetil: du behøver kun at "tabe" flagene "--sprog" og "-opgave". For almindelig transskription ville ovenstående kommando være:

hviske--modelgrundlagSeneste bemærkning.mp3

"Model"-flaget er påkrævet, fordi Whisper bruger en ud af forskellige muligheder. Lad os udvide dem for at hjælpe dig med at vælge det bedste til dine behov.

Hvilken model skal man vælge?

Whisper tilbyder forskellige sprogmodeller. Jo større modellen er, jo mere forbedret dens nøjagtighed, men også desto højere hardwarekrav. De er:

  1. Lille bitte.
  2. Grundlag.
  3. Lille.
  4. Medium.
  5. Stor.

De fleste engelsktalende som modersmål burde have det fint med lille bitte eller grundlag modeller. Personer, der ikke har engelsk som modersmål, kan se bedre resultater med større modeller, f.eks lille og medium.

Bemærk dog, at de mellemstore og store modeller kræver over 8 GB VRAM (det vil sige "din GPU's hukommelse").

For at vælge en af ​​dem skal du angive modellen efter "--model"-knappen i kommandoen:

hviske --model tiny/small/medium/large [fil]

For eksempel:

hviske--modellilleMin_stemme_note.mp3

Sådan strømliner du din transskription

At skulle skrive hele Whisper-kommandoen, hver gang du vil transskribere noget lyd, kan hurtigt blive kedeligt. Lad os lave en globalt tilgængelig batchfil for at strømline processen.

  1. Løb Windows Stifinder og besøg dit C:-drev.
  2. Opret en mappe til dine scripts, og kopier dens sti til udklipsholderen.
  3. I Windows Start-menuen, søg efter "sti" og vælg Rediger systemmiljøvariablerne.
  4. Find Sti variabel under Brugervariabler for YOUR_USERNAME. Dobbeltklik på den for at redigere den. Klik på Ny, og indsæt stien til din scripts-mappe. Klik på Okay at acceptere ændringerne.
  5. Vend tilbage til din script-mappe i Windows Stifinder. Opret en ny batchfil der med navnet "wht.bat". "Inde i" det, placer denne kommando:
    hviske --model tiny --language da %1
  6. Opret yderligere to batchfiler, "whs" og "whm".
  7. Placer dette i det første script:
    hviske --model small --language da %1
  8. Placer dette i den anden:
    hviske --model medium --language da %1

Tillykke, du har nu tre scripts til nemt at bruge Whispers små, små og mellemstore modeller med dine lydfiler! Sådan transskriberes en lydfil til tekst:

  1. Find filen med Windows File Explorer.
  2. Højreklik på et tomt sted og vælg Åbn i Terminal.
  3. Skriv denne kommando, og erstat "wht" med "whs" eller "whm" for at bruge de små eller mellemstore sprogmodeller:
    hvadDIN_LYD_FIL.mp3

Skrivning med lydens hastighed med hvisken

Selv de hurtigste maskinskrivere kan ikke matche den hastighed, vi taler med. Indtil for nylig var det dog ikke optimalt at tale i stedet for at skrive til oprettelse af dokumenter.

De fleste stemme-til-tekst-løsninger gav middelmådige resultater. Du kunne finde et par løsninger, der var værd at prøve, men de var komplicerede at bruge eller dyre. Heldigvis ændrede Whisper alt det.

Efter ovenstående trin bør du være klar til at transskribere eller oversætte din stemme med høj nøjagtighed ved kun at bruge en enkelt kommando.