Reklame

Vi kan tale med næsten alle vores gadgets nu, men hvordan fungerer det nøjagtigt? Når du spørger "Hvilken sang er dette?" eller sige "Ring til mamma", der sker et mirakel med moderne teknik. Og selvom det føles som på forkant, går denne idé om at tale med enheder årtier tilbage - næsten så vidt som jetpacks i science fiction!

I dag er hovedparten af ​​opmærksomheden mod stemmedrevet computing på smartphones. Apple, Amazon, Microsoft og Google er i toppen af ​​kæden, der hver tilbyder sin egen måde at tale med elektronik på. Du vidste, hvem de er: Siri, Alexa, Cortana og den navnløse “Ok, Google” -væsen. Hvilket rejser et stort spørgsmål ...

Hvordan tager en enhed talte ord og gør dem til kommandoer, den kan forstå? I det væsentlige kommer det ned på mønstermatchning og fremsendelse af forudsigelser baseret på disse mønstre. Mere specifikt er stemmegenkendelse en kompleks opgave, der kommer fra Akustisk modellering og Sprogmodellering.

Akustisk modellering: Bølgeformer og telefoner

bølgeform

Akustisk modellering er processen med at tage en bølgeform af tale og analysere den ved hjælp af statistiske modeller. Den mest almindelige metode til dette er

instagram viewer
Skjult Markov modellering, der bruges i det, der kaldes udtale modellering at opdele tale i komponentdele kaldet telefoner (må ikke forveksles med faktiske telefonenheder). Microsoft har været en førende forsker på dette område i mange år.

Skjult Markov-modellering: sandsynlighedsstater

Skjult Markov-modellering er en forudsigelig matematisk model, hvor den aktuelle tilstand bestemmes ved at analysere output. Wikipedia har en godt eksempel ved hjælp af to venner.

Forestil dig to venner - Local Friend og Remote Friend - som bor i forskellige byer. Local Friend ønsker at finde ud af, hvordan vejret er, hvor Remote Friend bor, men Remote Friend vil kun tale om, hvad han gjorde den dag: gå, shoppe eller rengøre. Sandsynligheden for hver aktivitet afhængig af dagens vejr.

Skjult Markov modellering

Foregive, at dette er den eneste tilgængelige information. Med det kan Local Friend finde trends i, hvordan vejret ændrede sig fra dag til dag, og ved hjælp af disse trends, hun kan begynde at komme med uddannede gætte om, hvad dagens vejr vil være baseret på hendes venes aktivitet i går. (Du kan se et diagram over systemet ovenfor.)

Hvis du vil have et mere komplekst eksempel, skal du tjekke ud dette eksempel på Matlab. Ved stemmegenkendelse sammenligner denne model i det væsentlige hver del af bølgeformen med det, der kommer før og hvad der kommer efter, og mod en ordbog med bølgeformer for at finde ud af, hvad der bliver sagt.

I det væsentlige, hvis du laver en "th" lyd, vil den kontrollere denne lyd mod de mest sandsynlige lyde, der normalt kommer før og efter den. Måske betyder det at kontrollere mod “e” lyden, “at” lyden og så videre. Når mønsteret matcher korrekt, har det hele dit ord. Dette er en forenkling, men du kan se Microsofts hele forklaring her.

Sprogmodellering: Mere end lyd

Akustisk modellering går langt i at hjælpe din computer med at forstå dig, men hvad med homonymer og regionale variationer i udtale? Det er her sprogmodellering kommer på spil. Google har drevet en masse forskning på dette område, hovedsageligt gennem brug af N-gram modellering.

Når Google prøver at forstå din tale, gør den det baseret på modeller, der stammer fra dens massive bank af stemmesøgning og YouTube-transkriptioner. Alle disse sjove forkerte videotekster har faktisk hjulpet Google med at udvikle deres ordbøger. De brugte også de afviste GOOG-411 at indsamle information om, hvordan folk taler.

shutterstock_70757203

Hele denne sprogsamling skabte en lang række udtaler og dialekter, der skabte en robust ordbog med ord, og hvordan de lyder. Dette giver mulighed for kampe, der har en meget reduceret fejlprocent end brute force matching baseret på rå sandsynligheder. Du kan læse et kort papir der beskriver deres metoder her.

Mens Google er førende inden for dette felt, er der andre matematiske modeller, der udvikles, herunder kontinuerligt rum modeller og positionssprogmodeller, som er mere avancerede teknikker, der er født fra forskning inden for kunstig intelligens. Disse metoder er baseret på at gentage den slags ræsonnement, mennesker gør, når de lytter til hinanden. Disse er meget mere avancerede både hvad angår teknologien bag dem, men også den matematik og programmering, der er nødvendig for at kortlægge disse modeller.

N-Gram modellering: Sandsynlighed imødekommer hukommelse

N-gram modellering fungerer ud fra sandsynligheder, men den bruger en eksisterende ordbog til at skabe et forgrenet træ af muligheder, der derefter udjævnes for effektivitets skyld. På en måde betyder det, at N-gram Modeling fjerner meget af usikkerheden i den førnævnte Hidden Markov Modeling.

Som nævnt ovenfor stammer denne metodes styrke fra at have en stor ordbog med ord og forbrug, ikke kun primitivt lyde. Dette giver programmet mulighed for at fortælle forskellen mellem homofoner, som "beat" og "roer". Det er kontekstuelt, hvilket betyder, at når du taler om gårsdagens scoringer, trækker programmet ikke ord om borscht.

Men disse modeller er faktisk ikke det bedste til sprog, primært på grund af problemer med sandsynlighed for ord i længere sætninger. Efterhånden som du tilføjer flere ord til en sætning, går denne model lidt væk, da dine tidlige ord sandsynligvis ikke har indlæst alt, hvad der kræves til din komplette tanke.

Det er dog enkelt og nemt at implementere, hvilket gør det til en perfekt match for et firma som Google, der nyder at smide servere på beregningsproblemer. Du kan læse videre om N-gram Modelieng på University of Washington, eller du kan se en forelæsning på Coursera.

Shouting at Clouds: Apps & Devices

Enhver, der har brugt Siri, kender frustrationen over en langsom netværksforbindelse. Dette skyldes, at dine kommandoer til Siri sendes over netværket, der skal dekodes af Apple. Cortana til Windows-telefon kræver også, at en netværksforbindelse fungerer korrekt. I modsætning hertil er Amazons Echo bare en Bluetooth-højttaler uden internet.

Hvorfor forskellen? Fordi Siri og Cortana har brug for tunge servere til at afkode din tale. Kan det gøres på din telefon eller tablet? Selvfølgelig, men du vil dræbe din ydelse og batteriets levetid i processen. Det giver bare mere mening at downloade behandlingen til dedikerede maskiner.

SIGCHI_Conference_Paper_Format _-_ KumarSpeechRecognitionForMobileApps_pdf

Tænk på det på denne måde: din kommando er en bil, der sidder fast i mudderet. Du kan sandsynligvis skubbe det ud selv med nok tid og kræfter, men det vil tage timer og efterlade dig udmattet. I stedet ringer du til vejhjælp, og de trækker din bil ud på kun få minutter. Ulempen er, at du er nødt til at ringe op og vente på dem, men det er stadig hurtigere og mindre beskatning.

Desktop-modeller som Nuance har en tendens til at bruge lokale ressourcer på grund af den mere kraftfulde hardware. Når alt kommer til alt, med Steve Jobs 'ord, er din desktop er en lastbil. (Hvilket gør det lidt fjollet, at OS X bruger servere til dens behandling.) Så når du skal behandle sprog og stemme, er den allerede udstyret godt nok til at håndtere det på egen hånd.

På den anden side tillader Android udviklere at inkludere offline talegenkendelse i deres apps. Google kan godt lide at komme foran teknologien, og du kan satse på at de andre platforme får denne mulighed, efterhånden som deres hardware bliver kraftigere. Ingen kan lide det, når dårlig dækning eller dårlig modtagelse lobotomiserer deres enhed.

Begynd at bruge stemmekommandoer nu

Nu hvor du kender de grundlæggende begreber, skal du lege med dine forskellige enheder. Prøv det nye stemmetype i Google Dokumenter Hvordan stemmetype er den nye bedste funktion i Google DokumenterStemmegenkendelse er forbedret med spring og grænser i de senere år. Tidligere denne uge introducerede Google endelig stemmetype i Google Dokumenter. Men er det godt? Lad os finde ud af det! Læs mere . Som om Web office-pakken ikke allerede var kraftig nok, giver stemmestyring dig mulighed for at diktere og formatere dine dokumenter fuldstændigt. Dette udvides med den stærke teknologi, de allerede har designet til Chrome og Android.

Andre ideer inkluderer opsætning af din Mac til at bruge stemmekommandoer Sådan bruges talekommandoer på din Mac Læs mere og opsætning af din Amazon Echo med automatisk checkout Hvordan Amazon Echo kan gøre dit hjem til et smart hjemSmart home tech er stadig i de tidlige dage, men et nyt produkt fra Amazon kaldet "Echo" kan hjælpe med at bringe det ind i mainstream. Læs mere . Lev i fremtiden og omfavn at tale med dine gadgets - selvom du bare bestiller flere papirhåndklæder. Hvis du er en smartphone-afhængig, har vi også selvstudier til Siri 8 ting, du sandsynligvis ikke var klar over, at Siri kunne gøreSiri er blevet en af ​​iPhone's definerende funktioner, men for mange mennesker er det ikke altid det mest nyttige. Selvom noget af dette skyldes begrænsningerne i stemmegenkendelse, er mærkeligt ved at bruge ... Læs mere , Cortana 6 fedeste ting, du kan kontrollere med Cortana i Windows 10Cortana kan hjælpe dig med at gå håndfri i Windows 10. Du kan lade hende søge i dine filer og på internettet, foretage beregninger eller trække vejrudsigten op. Her dækker vi nogle af hendes køligere færdigheder. Læs mere , og Android OK, Google: 20 nyttige ting, du kan sige til din Android-telefonGoogle Assistant kan hjælpe dig med at få gjort meget på din telefon. Her er en hel masse basale, men nyttige OK Google-kommandoer til at prøve. Læs mere .

Hvad er din yndlingsbrug af stemmestyring? Fortæl os det i kommentarerne.

Billedkreditter: T-flex via Shutterstock, Terencehonles via Wikimedia Foundation, Arizona State, Cienpies Design via Shutterstock

Michael brugte ikke en Mac, da de var dømt, men han kan kode i Applescript. Han har grader i datalogi og engelsk; han har skrevet om Mac, iOS og videospil i et stykke tid nu; og han har været en IT-abe på dagen i over et årti og har specialiseret sig i scripting og virtualisering.