Sådan ændrer du din stemme til tekst i realtid med Whisper Desktop

Skaberne af ChatGPT har et andet værktøj, der har til formål at tage belastningen af dine fingre.

De samme mennesker bag ChatGPT har skabt endnu et AI-baseret værktøj, som du kan bruge i dag til at øge din produktivitet. Vi henviser til Whisper, en stemme-til-tekst-løsning, der overskyggede alle lignende løsninger, der kom før den.

Du kan bruge Whisper i dine programmer eller kommandolinjen. Og alligevel besejrer det selve formålet: at skrive uden tastatur. Hvis du skal skrive for at bruge det, hvorfor så bruge det for at undgå at skrive? Heldigvis kan du nu bruge Whisper gennem en desktop GUI. Endnu bedre, det kan også transskribere din stemme næsten i realtid. Lad os se, hvordan du kan skrive med din stemme ved hjælp af Whisper Desktop.

Hvad er OpenAI's Whisper?

OpenAI's Whisper er et Automatic Speech Recognition system (ASR for kort) eller, for at sige det enkelt, er en løsning til at konvertere talt sprog til tekst.

Men i modsætning til ældre dikterings- og transskriptionssystemer er Whisper en AI-løsning, der er trænet på over 680.000 timers tale på forskellige sprog. Whisper tilbyder uovertruffen nøjagtighed, og ganske imponerende er det ikke kun flersproget, men det kan også oversætte mellem sprog.

instagram viewer

Endnu vigtigere er det gratis og tilgængeligt som open source. Takket være det, har mange udviklere gaflet sin kode ind i deres egne projekter eller skabt apps, der er afhængige af den, som Whisper Desktop.

Hvis du foretrækker "vanilje"-versionen af Whisper og terminalens alsidighed i stedet for klodsede GUI'er, så tjek vores artikel om hvordan du forvandler din stemme til tekst med OpenAI's Whisper til Windows.

Er Whisper og Whisper Desktop det samme?

På trods af dets officielt klingende navn er Whisper Desktop en tredjeparts GUI til Whisper, lavet til alle, der foretrækker at klikke på knapper i stedet for at skrive kommandoer.

Whisper Desktop er en selvstændig løsning, der ikke er afhængig af en eksisterende Whisper-installation. Som en bonus bruger den en alternativ, optimeret version af Whisper, så den burde yde bedre end den selvstændige version.

Du er i den anden ende af spektret, og i stedet for at søge en nemmere måde at bruge Whisper på end terminalen, søger du måder at implementere det i dine egne løsninger? Glæd dig, for OpenAI har åbnet adgang til ChatGPT og Whisper API'er.

Download og installer Whisper Desktop

Selvom Whisper Desktop er nemmere at bruge end den selvstændige Whisper, er installationen mere indviklet end at klikke på Næste gentagne gange i en guide.

Besøg Whisper Desktops officielle Github-side. Se til højre, og klik på den seneste version under Udgivelser.
Under Aktiver, klik WhisperDesktop.zip og download det til din pc.
Udpak det downloadede arkiv til en mappe, og brug din filhåndtering til at besøge det. Indeni finder du Whisper Desktop-applikationen. Dobbeltklik på den for at køre den.
Du skal også bruge en Whisper-sprogmodel i GCML binært format. Whisper Desktop vil give dig to links til at anskaffe en. Spring det andet link over for at generere din egen model, da det er en mere kompliceret proces. Klik på Krammer ansigt for at åbne den side i din standardbrowser, hvorfra du kan downloade en fil, der er klar til brug.
Den version af Whisper Desktop, vi brugte, mens vi skrev denne artikel, gav et link til et forældet lager hos Hugging Face. Hvis du støder på det samme problem, så læg mærke til et link til en ny placering. Klik på det for at besøge det nye lager.
Klik på linket, der fører dig til det tilgængelige modeller.
Fra denne liste skal du klikke på enten ggml-medium.bin eller ggml-medium.en.bin, afhængigt af om du ønsker flersproget eller kun engelsk support i Whisper.
Endelig skulle du have nået din destination. Bemærk linjen, der siger, at denne fil er gemt med Git LFS og er for stor til at vise, men du kan stadig downloade den. Klik på Hent at gøre netop det.
Når filen er færdig med at downloade, skal du bruge din foretrukne filhåndtering (File Explorer gør det) til at flytte den downloadede sprogmodelfil til den samme mappe som Whisper Desktop.

Transskribering med Whisper Desktop

Det er nemt at transskribere med Whisper Desktop, men du har muligvis stadig brug for et eller to klik for at bruge appen.

Kør Whisper Desktop igen. Savner den (stadig) den korrekte sti til din downloadede sprogmodel? Klik på knap med de tre prikker til højre i feltet, og vælg manuelt den fil, du downloadede fra Hugging Face.

Fra dette sted kan du også bruge rullemenuen ved siden af Modelimplementering for at vælge, om du vil køre Whisper på din GPU (GPU), på både CPU og GPU (Hybrid), eller kun på CPU'en (Reference).

Det Fremskreden knappen fører til flere muligheder, der påvirker, hvordan Whisper kører på din hardware. Men da knappen tydeligt angiver, at de er avancerede, foreslår vi, at du kun justerer dem, hvis du er ved at fejlfinde eller ved, hvad du laver. Indstilling af de forkerte indstillingsværdier her kan pålægge en præstationsstraf eller gøre appen ubrugelig.

Klik på OK for at gå til appens hovedgrænseflade.

Hvis du allerede har en optagelse af din stemme, du vil lave om til skrevet tekst, skal du klikke på Transskriber fil og vælg det. Alligevel vil vi bruge Whisper Desktop til live transskription til denne artikel.

De tilbudte muligheder er ligetil. Du kan vælge Sprog Whisper vil bruge, vælg om du vil Oversætte mellem sprog og aktivere appens Debug konsol.

De fleste engelsktalende brugere kan trygt springe over disse muligheder og kun sikre sig, at den korrekte lydindgang er valgt fra rullemenuen ved siden af Capture-enhed.

Sørge for at Gem til tekstfil og Føj til den fil er aktiveret for at få Whisper Desktop til at gemme sit output til en fil uden at overskrive indholdet. Brug knap med de tre prikker til højre for filens stifelt for at definere tekstfilen.

Klik på Fange for at begynde at transskribere din tale til tekst.

Whisper Desktop viser dig tre indikatorer for, hvornår det registrerer stemmeaktivitet, hvornår det aktivt transskriberer, og hvornår processen er gået i stå.

Du kan blive ved med at tale, så længe du vil, og du bør af og til se de to første indikatorer blinke, mens appen forvandler din stemme til tekst. Klik Hold op når du er færdig.

Den tekstfil, du valgte, skulle åbne i din standardteksteditor, der i skriftlig form indeholder alt, hvad du sagde, indtil du klikkede Hold op.

Vi skal bemærke, at du også kan gøre det modsatte af, hvad vi så her: konvertere enhver tekst til tale. På denne måde kan du lytte til hvad som helst, som om det var en podcast i stedet for at trætte dine øjne med at skele til skærme. For mere information om det, se vores artikel om nogle af de bedste gratis onlineværktøjer til at downloade tekst-til-tale som MP3-lyd.

Whisper Desktop Voice-Type Tips

Selvom Whisper Desktop kan være en livredder, så du kan skrive med din stemme meget hurtigere, end du kunne skrive, er det langt fra perfekt.

Under vores test fandt vi ud af, at det af og til kan stamme, springe nogle ord over, undlade at transskribere, før du stop manuelt og genstart processen, eller sæt dig fast i en løkke og fortsæt med at gentransskribere den samme sætning gentagne gange.

Vi mener, at det er midlertidige fejl, der vil blive rettet, da den selvstændige Whisper ikke udviser de samme problemer.

Bortset fra de mindre buler, bør det være nemt at omdanne din stemme til tekst med Whisper Desktop. Alligevel fandt vi under vores test ud, at den kan yde endnu bedre, hvis...

I stedet for kun at sige to eller tre ord og derefter holde pause, kan Whisper forstå dig bedre, hvis du fortsætter længere. Prøv i det mindste at give den en hel sætning ad gangen.
Af samme grund skal du undgå gentagne gange at starte og stoppe transkriptionsprocessen.
Når du indser, at du har lavet en fejl, så ignorer den og fortsæt. Indlæsning og aflæsning af sprogmodellen ser ud til at være den mest tidskrævende del af processen med den nuværende tilstand af Whisper og vores tilgængelige hardware. Så det er hurtigere at blive ved med at tale og så redigere dine fejl bagefter.
Som med den selvstændige version af Whisper er det bedst at bruge den optimale sprogmodel til din tilgængelige hardware. Du kan bruge op til medium model, hvis din GPU har 8 GB VRAM. For mindre VRAM, gå efter de mindre modeller. Vælg kun det lidt mere præcise, men også meget mere krævende stor model, hvis du bruger en GPU med 16 GB VRAM eller mere.
Husk, at jo større sprogmodellen er, jo langsommere er transskriptionsprocessen. Gå ikke efter en model, der er større end nødvendigt. Du vil sikkert opdage, at Whisper Desktop allerede kan "forstå dig" det meste af tiden med de mellemstore eller mindre modeller, med kun en eller to fejl pr. afsnit.

Skriver du stadig? Brug din stemme med hvisken

På trods af at det kræver noget tid at konfigurere, som du vil se, når du prøver det, yder Whisper Desktop meget bedre end de fleste alternativer, med meget højere nøjagtighed og bedre hastighed.

Når du er begyndt at bruge det til at skrive med din stemme, kan dit tastatur ligne et levn fra fordums tider.

About Technology - denizatm.com

Sådan ændrer du din stemme til tekst i realtid med Whisper Desktop

Hvad er OpenAI's Whisper?

Er Whisper og Whisper Desktop det samme?

Download og installer Whisper Desktop

Transskribering med Whisper Desktop

Whisper Desktop Voice-Type Tips

Skriver du stadig? Brug din stemme med hvisken

kategorier

Recent Post

Hyperink: Få hjælp til at skrive en bog og udgive den

Zyndle: Find, se & download gratis PDF'er online

NXDom: Short Domain Finder