Hvordan Alexa lytter efter Wake Words

Alexa lytter altid, men optager ikke konstant. Den sender ikke noget til cloud-servere, før den hører dig sige det vågne ord (Alexa, Echo eller Computer). Men at lytte efter vågne ord er sværere, end du måske tror.

Echo hardware er ikke så intelligent. Uden internettet vil enhver anmodning eller spørgsmål, du stiller, mislykkes. Dette skyldes, at dine kommandoer sendes til skyen for fortolkning og beslutninger. Amazon ønsker ikke, at hver samtale, du har foran en smarthøjttaler, skal optages, men derimod kun de kommandoer, du giver den smarte højttaler. Af denne grund bruger virksomheden et vågent ord for at få den smarte højttalers opmærksomhed. For at opnå dette bruger Amazon en kombination af finjusterede mikrofoner, en kort hukommelsesbuffer og neural nettræning.

Finjusterede mikrofoner lokaliserer din stemme

Den lyseblå LED vil altid vende mod din stemmes retning.

Stemmeassistenthøjttalere, som Echo og Echo Dot, har typisk flere indbyggede mikrofoner. Echo Dot har for eksempel syv. Det array giver enhederne flere evner, lige fra at høre kommandoer talt langt væk til at adskille baggrundsstøj fra stemmer.

Sidstnævnte er især nyttigt til detektion af wake word. Ved at bruge sine mange mikrofoner kan Echo lokalisere din placering i forhold til, hvor den sidder og lytte i den retning, mens den ignorerer resten af ​​rummet.

  Omgå alle begrænsninger for at downloade app-APK'er direkte til din enhed

Du ser dette i aktion, når du bruger det vågne ord. Stil dig ved siden af ​​et Echo eller Echo Dot og sig det vågne ord. Læg mærke til, at ringen lyser mørkeblåt og derefter en lysere blå, når den cirkler og “peger” mod dig. Flyt nu flere trin til siden og sig vækkeordet igen. Læg mærke til, at de lyseblå lys følger dig.

At vide, hvor du er, hjælper enheden med at fokusere på dig bedre og dæmpe lyde fra andre steder.

Kort hukommelse forhindrer højttaleren i at holde for meget

Echo-enheder har masser af lagerplads, men de bruger ikke meget af det. Ifølge Rohit Prasad, Vice President hos Amazon og Head Scientist of Alexa Artificial Intelligence, an Echo kan kun fysisk lagre et par sekunders lyd.

Ved at reducere dens kapacitet giver Amazon dig ikke kun mere privatliv (det er et sted mindre, hvor din stemme er gemt), men forhindrer også Echo i at lytte til hele samtaler, hvilket begrænser dets fokus til at finde det vågne ord.

Forestil dig, at du havde en tre-sekunders kassette og en båndoptager. Antag, at efter at det nåede slutningen, løb båndet tilbage til begyndelsen igen og igen. Hvis du begyndte at optage en samtale, ville alt, hvad du sagde for fire sekunder siden, blive slettet og straks optaget. Det er, hvad et Amazon Echo gør.

Den optager kontinuerligt, men sletter alt, hvad den lige har optaget på samme tid. Den korte opmærksomhed betyder, at det eneste, den kan høre, er ordet “Alexa”, og ikke meget mere. Tre sekunder er dog lang nok til, at det ord kan registreres, undersøges og reageres på passende vis.

  Sådan tilføjer du Google Kalender-begivenheder til Google Maps

Neural nettræning hjælper med mønstermatchning

En repræsentation af de lag, der bruges af Amazons algoritmer.

Endelig afhænger Amazon af træning i neurale netværk for at lære ekkoet, hvordan man matcher mønsteret. Meget ligesom andre former for maskinlæring træner Amazon sine algoritmer ved at fodre det instans efter instans af ordet Alexa (eller Computer eller Echo, afhængigt af hvilket wake word virksomheden træner).

Tanken er at dække enhver bøjning og accent, men også konteksten. Amazon vil have dit Echo til at genkende forskellen, når du taler til det, når du taler om det, eller måske når du taler med en person ved navn Alexa. De retningsbestemte mikrofoner hjælper også med det mål.

Med hvert ord, som ekkoet hører, kører det lyd gennem lag af algoritmer. Hvert lag er designet til at udelukke falske positiver, på udkig efter lydlignende eller kontekstspor. Hvis det ene lag-tjek består, går ordet til det næste. Til sidst, når den lokale enhed beslutter, at den hørte wake-ordet, begynder den at optage og videregive lyden til Amazons cloud-servere. Amazon anvender fire algoritmer: en for hvert wake-ord (Alexa, Computer, Echo) og en for Alexa Guard, der behandler specifikke lyde, såsom glasspudsning, som et wake-ord.

Men selv når der opstår et match, kører Amazon stadig mere komplicerede kontroller. Har du bemærket, at når nogen taler ordet Alexa i et tv-program eller en reklamefilm, fremkalder det normalt ikke et svar fra dit Echo? Det skyldes, at Amazon også laver et cloud-tjek.

  Sådan moderniseres Ubuntu med Flattiance GTK-temaet

Cloud-tjek udelukker nogle falske positiver

Det her sjov Alexa-reklame vil ikke vække dit ekko.

Når virksomheder laver reklamer med Alexa, kan de det indsend lyden til Amazon. Virksomheden kører lyden gennem lignende mønstertilpasningsalgoritmer, der bruges til at identificere wake-ordet. Når den nøjagtige instans er fuldt katalogiseret, føjes den til en database.

Som en del af processen, når du når ud til skyen, inkluderer dit Echo information om det vågne ord, det hørte, og tjekker databasen. Når som helst den finder et match, instruerer Amazon dit Echo om at ignorere vækkeordet, lukke ned og kassere optaget lyd.

Derudover tjekker Amazon for tilfælde af det vågne ord, der er talt samtidigt. Ikke alle virksomheder sender lyd til Amazon, så virksomheden kom med en ny backup-løsning. Efter at have tjekket for en databasematch, sammenligner virksomheden wake word-aftrykket med andre forekomster, der kommer ind på samme tid. Det er usandsynligt, at to personer, der siger Alexa samtidigt, ville lyde nøjagtig ens, så hvis der er et match, ved Amazon, at det sandsynligvis er et reklame- eller tv-program og ignorerer anmodningen.

På trods af alle kontrollerne forekommer falske positiver stadig. Du kan lytte til, hvad dit Echo har optaget på Amazons privatlivshub, og du vil sandsynligvis finde mindst én falsk positiv i flokken. Men teknologien bliver løbende forbedret, og i sidste ende vil Amazon gerne have, at den fungerer uden et vågent ord overhovedet.