Stemmegenkendelsesteknologi har en rig udviklingshistorie, der har ført den til, hvad den er i dag. Det er kernen i det moderne liv og giver os mulighed for at udføre opgaver bare ved at tale med en enhed. Så hvordan har denne forbløffende teknologi udviklet sig gennem årene? Lad os se.
1952: Audrey System
Det første trin i stemmegenkendelse skete i begyndelsen af 1950'erne. Bell Laboratories udviklede den første maskine, der kunne forstå den menneskelige stemme i 1952, og den fik navnet Audrey System. Navnet Audrey var en slags sammentrækning af udtrykket Automatic Digit Recognition. Selvom dette var en stor innovation, havde det nogle store begrænsninger.
Mest fremtrædende kunne Audrey kun genkende de numeriske cifre 0-9, ingen ord. Audrey ville give feedback, når højttaleren sagde et tal ved at tænde 1 ud af 10 lyspærer, hver svarende til et ciffer.
Selvom det kunne forstå tallene med 90% nøjagtighed, var Audrey begrænset til en bestemt stemmetype. Det er derfor, den eneste person, der virkelig ville bruge det, var HK Davis, en af udviklerne. Når et tal blev talt, skulle højttaleren vente mindst 300 millisekunder, før han sagde det næste.
Det var ikke kun begrænset i funktionalitet, men det var også begrænset i anvendelighed. Der var ikke meget brug for en maskine, der kun kunne forstå tal. En mulig anvendelse var at ringe til telefonnumre, men det var meget hurtigere og lettere at ringe op til numrene i hånden. Selvom Audrey ikke havde en yndefuld eksistens, står den stadig som en stor milepæl i menneskelig præstation.
Relaterede: Sådan bruges stemmeskrivning i Microsoft Word
1962: IBM's skoæske
Et årti efter Audrey forsøgte IBM sine hænder på at udvikle et stemmegenkendelsessystem. På verdensudstillingen i 1962 viste IBM frem et stemmegenkendelsessystem ved navn Showbox. Ligesom Audrey var hovedopgaven at forstå cifrene 0-9, men det kunne også forstå seks ord: plus, minus, falsk, total, delsum og off.
Skoeske var en matematikmaskine, der kunne lave simple regningsproblemer. Hvad angår feedback, kunne Shoebox i stedet for lys udskrive resultaterne på papir. Dette gjorde det nyttigt som en lommeregner, selvom højttaleren stadig skulle holde pause mellem hvert tal/ord.
1971: IBM's automatiske opkaldsidentifikation
Efter Audrey og Shoebox udviklede andre laboratorier rundt om i verden teknologi til stemmegenkendelse. Det tog dog først fart i 1970'erne, da IBM i 1971 bragte den første opfindelse på markedet. Det blev kaldt det automatiske opkaldsidentifikationssystem. Det var det første stemmegenkendelsessystem, der blev brugt over telefonsystemet.
Ingeniører ville ringe og blive tilsluttet en computer i Raleigh, North Carolina. Den, der ringer op, vil derefter sige et af de 5.000 ord i sit ordforråd og få et "talt" svar som et svar.
Relaterede: Sådan bruges stemmediktat på Mac'er
1976: Harpy
I begyndelsen af 1970'erne interesserede det amerikanske forsvarsministerium sig for stemmegenkendelse. DARPA (Defense Advanced Research Projects Agency) udviklede programmet Speech Understanding Research (SUR) i 1971. Dette program gav finansiering til flere virksomheder og universiteter til at støtte forskning og udvikling til stemmegenkendelse.
I 1976, på grund af SUR, udviklede Carnegie Mellon University Harpy System. Dette var et stort spring inden for teknologi til stemmegenkendelse. Systemerne indtil det tidspunkt var i stand til at forstå ord og tal, men Harpy var unik ved, at den kunne forstå fulde sætninger.
Det havde et ordforråd på kun cirka 1.011 ord, som ifølge en publikation af B. Lowerre og R. Reddy, lig med mere end en billion forskellige mulige sætninger. I publikationen hedder det derefter, at Harpy kunne forstå ord med 93,77% nøjagtighed.
1980'erne var en afgørende tid for stemmegenkendelsesteknologi, da dette er årtiet, hvor stemme anerkendelsesteknologi, da dette var årtiet, hvor vi blev introduceret til Hidden Markov -metoden (HMM). Den vigtigste drivkraft bag HMM er sandsynlighed.
Når et system registrerer et fonem (det mindste taleelement), er der en vis sandsynlighed for, hvad det næste bliver. HMM bruger disse sandsynligheder til at bestemme, hvilket fonem der sandsynligvis kommer næste gang og danner de mest sandsynlige ord. De fleste stemmegenkendelsessystemer i dag bruger stadig HMM til at forstå tale.
1990'erne: Stemmegenkendelse når forbrugsmarkedet
Siden opfattelsen af stemmegenkendelsesteknologi har det været på en rejse for at finde et rum på forbrugermarkedet. I 1980'erne fremviste IBM en prototype-computer, der kunne udføre tale-til-tekst-diktering. Det var dog først i begyndelsen af 1990'erne, at folk begyndte at se applikationer som denne i deres hjem.
I 1990 introducerede Dragon Systems den første tale-til-tekst-dikteringssoftware. Det blev kaldt Dragon Dictate, og det blev oprindeligt udgivet til Windows. Dette $ 9.000 -program var revolutionerende for at bringe stemmegenkendelsesteknologi til masserne, men der var en fejl. Den anvendte software diskret diktering, hvilket betyder, at brugeren skal holde pause mellem hvert ord for, at programmet kan hente dem.
I 1996 bidrog IBM igen til industrien med Medspeak. Dette var også et tale-til-tekst-dikteringsprogram, men det led ikke af diskret diktering, som Dragon Dictate gjorde. I stedet kunne dette program diktere kontinuerlig tale, hvilket gjorde det til et mere overbevisende produkt.
Relaterede: Sådan bruges Google Assistant med hovedtelefoner
2010: En pige ved navn Siri
I løbet af 2000'erne eksploderede stemmegenkendelsesteknologi i popularitet. Det blev implementeret i mere software og hardware end nogensinde før, og et afgørende trin i udviklingen af stemmegenkendelse var Siri, den digitale assistent. I 2010 introducerede et firma ved navn Siri den virtuelle assistent som en iOS -app.
På det tidspunkt var Siri et imponerende stykke software, der kunne diktere, hvad taleren sagde og give et veluddannet og vittigt svar. Dette program var så imponerende, at Apple købte virksomheden samme år og gav Siri en lille overhaling og skubbede det mod den digitale assistent, vi kender i dag.
Det var gennem Apple, at Siri fik sin ikoniske stemme (stemme af Susan Benett) og et væld af nye funktioner. Det bruger naturlig sprogbehandling at styre de fleste af systemets funktioner.
2010’erne: De store 4 digitale assistenter
Som det er nu, dominerer fire store digitale assistenter stemmegenkendelse og yderligere software.
- Siri findes på næsten alle Apples produkter: iPhones, iPods, iPads og Mac -computere.
- Google Assistant findes på de fleste af de 3 milliarder + Android -enheder på markedet. Derudover kan brugerne bruge kommandoer på tværs af mange Google -tjenester, som Google Home.
- Amazon Alexa har ikke meget af en dedikeret platform, hvor den bor, men det er stadig en fremtrædende assistent. Den kan downloades og bruges på Android -enheder, Apple -enheder. og endda vælge Lenovo bærbare computere
- Bixby er den nyeste post til listen over digitale assistenter. Det er Samsungs hjemmelavede digitale assistent, og den er til stede blandt virksomhedens telefoner og tablets.
En talt historie
Stemmegenkendelse er kommet langt siden Audrey -tiden. Det har gjort store gevinster på flere felter; for eksempel iflg Ryd Bridge Mobile, har det medicinske område nydt godt af stemmebaserede chatbots under pandemien i 2020. Fra kun at være i stand til at forstå tal til at forstå forskellige variationer af fulde sætninger, viser stemmegenkendelse at være en af de mest nyttige teknologier i vores moderne tidsalder.
Vi bruger stemmegenkendelse hele tiden, men hvordan fungerer det?
Læs Næste
- Teknologi forklaret
- Siri
- Google Assistant
- Alexa
- Bixby
- Stemmekommandoer
Arthur er en teknisk journalist og musiker, der bor i Amerika. Han har været i branchen i næsten et årti, efter at have skrevet til onlinepublikationer som f.eks. Android Headlines. Han har et dybt kendskab til Android og ChromeOS. Sammen med at skrive informationsartikler er han også dygtig til at rapportere tekniske nyheder.
Abonner på vores nyhedsbrev
Tilmeld dig vores nyhedsbrev for tekniske tips, anmeldelser, gratis e -bøger og eksklusive tilbud!
Klik her for at abonnere