Sætningsdetektion er blot en del af processen.
At råbe "Ok Google" fra den anden side af lokalet for at ændre musikken eller slukke lyset i et rum føles helt sikkert utroligt, men denne tilsyneladende simple proces er drevet af et kompliceret net af teknologier, der arbejder bag scener.
Næsten alle større virtuelle assistenter på markedet har en opkaldssætning, du bruger til at vække assistenten og føre en samtale. Men hvordan ved stemmeassistenter, når du taler til dem?
Hvordan fungerer sætningsdetektion?
Som nævnt ovenfor har hver stemmeassistent en "trigger-frase" eller vækkeord, som du bruger til at vække assistenten og give yderligere kommandoer. Processen med at opdage denne sætning er mere eller mindre den samme med hver assistent, bortset fra små nuancer. Når det er sagt, kan disse nuancer betyde forskellen mellem tilfældigt at sige wake-kommandoen og råbe den flere gange gange kun for assistenten til at blive ved med at sove, noget som til tider kan være rigtig irriterende, især hvis du bruge din stemmeassistent til at hjælpe med at falde til ro.
Generelt har de fleste "smarte" højttalere et lille kredsløb, hvis eneste opgave er at detektere wake-kommandoen og derefter få resten af hardwaren i aktion. Det meste af behandlingen foregår i skyen, men sætningsdetektionen er på enheden af indlysende privatlivsmæssige årsager. Sætningsgenkendelse på telefoner fungerer mere eller mindre på samme måde.
De nærmere detaljer er for det meste skjult, men disse detektionssystemer bruger maskinlæring og dybe neurale netværk (DNN'er) til at træne AI-modeller til at registrere din stemme og danne en nøgle. Denne nøgle bruges derefter til at bekræfte, hvornår du har sagt en bestemt sætning, og alt andet sendes til skyen for yderligere behandling.
Google Assistant
Telefoner, der understøtter "OK Google"-detektion, kommer normalt med et søgeordspotting-system (KWS), der registrerer sætningen og derefter retter resten af din forespørgsel til skyen. Da mobile enheder har begrænset regnekraft såvel som batterilevetid, er disse systemer normalt ikke så gode som dem, du ville finde på Google Nest-højttalere.
Dette KWS-system på enheden opfanger kontinuerligt lyd fra enhedens mikrofoner og starter en forbindelse til serveren, når det registrerer en udløsersætning. Google bruger også server-side Contextual Automatic Speech Recognition (ASR) til at forbedre den overordnede nøjagtighed af sit KWS-system. Du kan læse mere om det i Googles forskningspapir [PDF].
Siri
Siri fungerer på samme måde som Google Assistant med hensyn til "Hey Siri"-detektion. Apple har været overraskende åben omkring, hvordan systemet fungerer, hvilket involverer en "meget lille" talegenkender, der kører i baggrunden og lytter efter netop disse to ord. Denne detektor bruger en DNN til at konvertere det akustiske mønster af din stemme, der er optaget over hver instans, til en sandsynlighedsfordeling over talelyde, hvilket i det væsentlige genererer en konfidensscore.
Din iPhone eller Apple Watch gør dette ved at ændre din stemme til en strøm af bølgeformsprøver med en hastighed på 16.000 pr. sekund. Dette skæres derefter ned til en sekvens af billeder, der dækker et lydspektrum på omkring 0,01 sekunder. Derefter føres i alt 20 af disse frames til detektionsmodellen, som konverterer disse mønstre til en sandsynlighed.
Hvis systemet fastslår med tilstrækkelig selvtillid, at du sagde "Hej Siri", vågner Siri og sender resten af forespørgslen til skyen, hvor yderligere analyse finder sted, og hvilken handling du anmodede om får udført.
Der er naturligvis tilføjet yderligere foranstaltninger for at sikre hukommelse og batterieffektivitet. Din iPhones Always On Processor (AOP) har adgang til enhedens mikrofoner (på iPhone 6S og nyere) netop af denne grund, og en lille del af dens processorkraft er reserveret til at køre DNN. Apple tager et dybt dyk ned i hele systemet på deres maskinlæringswebsted, machinelearning.apple.
Alexa
Meget ligesom Google Assistant og Siri huser Alexa heller ikke det meste af sin processorkraft på nogen af de Echo-højttalere, du kan købe. I stedet bruger højttalerne, hvad Amazon kalder Automatic Speech Recognition (ASR), som i det væsentlige konverterer talte ord til tekst, så det underliggende system kan fortolke dem og handle derefter.
ASR danner det grundlæggende grundlag for, hvordan Alexa fungerer. Endnu en gang er der et system ombord, der lytter efter de vågne ord, i dette tilfælde "Alexa", "Amazon" "Echo" eller "Computer" og udløser resten af systemet, når det af brugeren forudbestemte wake-ord er opdaget. Du kan endda vækk din Alexa-enhed ved hjælp af "Hey Disney" Hvis du vil.
Ligesom Google Assistant kan du træne Alexas underliggende AI-model til at registrere din stemme bedre. Denne proces involverer oprettelse af en baseline "nøgle", som det talte vågne ord sammenlignes med, og når der er fundet et match, reagerer enheden i overensstemmelse hermed.
Lytter stemmeassistenter altid?
Som du sikkert allerede kan gætte, ja, det er de. Der er ingen måde, de ville være i stand til at opdage de vågne ord ellers. Du behøver dog ikke smide alle dine smarte højttalere ud af hensyn til privatlivets fred endnu.
Lytte til alt, hvad brugerne siger, sende det tilbage til en ekstern server og analysere (eller gemme) det kræver enorme hardware og økonomiske ressourcer til det punkt, hvor det ikke giver mening ud fra en praktisk perspektiv. Læg dertil de massive bekymringer om privatlivets fred, som virksomheder som Google, Apple og Amazon allerede beskæftiger sig med, og ideen giver ikke mening.
Dette påvirker også i høj grad telefonernes ydeevne og batterilevetid med funktioner til registrering af vågne ord, især Google Pixels og iPhones. Hvis din telefon konstant lytter til, hvad du siger og sender den lyd tilbage til en ekstern server, vil den fylde dit batteri og ramme enhedens ydeevne.
Hvem har den mest effektive sætningsdetektion og hvorfor?
Det er ikke let objektivt at sammenligne, hvilken virtuelle assistent der har den bedste sætningsdetektion objektivt, da de alle bruger lidt forskellige implementeringer af det samme overordnede koncept. Google ser dog ud til at have mere konsekvent sætningsdetektion på grund af forspringet Google Assistant sammenlignet med Siri og Alexa.
På trods af at apps, der bruger store sprogmodeller (LLM'er) som ChatGPT og Bing Chat er blevet mainstream, bevarer Google Assistant sin position som en af de mest populære virtuelle assistenter, simpelthen fordi det er et tryk væk på enhver Android-enhed, lige fra smart-tv'er til bilstereosystemer og selvfølgelig smartphones.
Siri og Alexa har lidt at indhente i den afdeling, men hvad angår sætningsdetektion, er de ikke så langt væk. Alligevel har du en bedre chance for at vække Google Assistant på din Pixel fra den anden side af rummet, end du ville have med Siri på din iPhone, selvom du kan boost Siris muligheder med Super Siri-tilstand. Da Alexa for det meste bruges på Amazons Echo linje af højttalere, har det en lille fordel her, i betragtning af at disse højttalere er designet til at kunne opfange brugerens stemme.
AI er lige så uhyggelig, som den er praktisk
Det kan være ret praktisk at tilkalde din AI-assistent med kun din stemme. For en funktion, der integreres problemfrit i vores liv, sker der meget bag kulisserne, som de fleste af os ofte ikke tænker over.
Når det er sagt, medfører denne bekvemmelighed også uroen ved, at din enhed altid lytter til, hvad du siger. Indtil videre står talegenkendere på enheden og vækkeord mellem det, din virtuelle assistent hører, og det du siger.