Technologie voor spraakherkenning speelt een steeds belangrijkere rol in ons leven, of we nu onze Amazon Echo vragen onze favoriete Spotify-afspeellijst af te spelen of een verspilling van het nieuws van de Google-assistent in onze smartphones ingebouwd.

Hoewel technologie voor spraakherkenning al sinds de jaren vijftig bestaat, heeft het pas de laatste paar jaar een praktische toepassing gevonden in de vorm van stemassistenten die zijn ingebouwd in smartphones, luidsprekers en meer.

De nieuwste golf van spraakherkenningsinnovatie is tot stand gekomen dankzij de grote sprongen in de kunstmatige intelligentie van de afgelopen jaren, met technologische reuzen zoals Google, Amazon en Apple die hun gebruik van neuraal netwerken in de ontwikkeling van hun stemassistenten aan het werven waren.

Machine learning

Wat stemassistenten zoals Amazon Alexa, Apple's Siri en Google Assistent onderscheidt van vroege iteraties van spraakherkenningstechnologie, is het feit dat ze constant leren, waarbij je spraakpatronen, woordenschat en syntaxis bij elke interactie opneemt..

De meeste stemassistenten hebben tegenwoordig ook spraakherkenning, waardoor ze verschillende gebruikers kunnen onderscheiden - en met de kracht van deze enorme technologiebedrijven en zoekmachines achter zich, worden stemassistenten steeds beter.

Hoewel de technologie onweerlegbaar is verbeterd sinds het voor het eerst zijn weg vond naar consumentenapparaten, hebben beperkingen met kunstmatige intelligentie en machine learning ertoe geleid dat stemassistenten nog steeds relatief grof zijn in termen van de geluiden die ze kunnen interpreteren en beantwoorden.

Klinkt plausibel

Dit kan deels te wijten zijn aan de nadruk van spraakherkenning op geluidherkenning; Immers, een groot deel van de sonische informatie die onze hersenen dagelijks binnenkrijgen, komt van non-verbale geluiden, zoals het toeteren van claxons of het blaffen van een hond.

Hoewel wordt aangenomen dat de oorsprong van de taal van vóór de moderne mens dateert, potentieel zelfs zo ver terug als Homo Ergaster (1,5 - 1,9 miljoen jaar geleden), konden onze voorouders al lang daarvoor geluid identificeren en verwerken.

Terwijl verbale communicatie een grote rol speelt in ons rationele begrip van de wereld om ons heen, is het non-verbale geluid dat vaak een emotionele, evolutionair ingesleten reactie oproept - we weten met zeer weinig context dat een grommend dier ons waarschuwt om terug te gaan, terwijl een huilbui baby heeft aandacht nodig. Een luide knal maakt dat we ons bang voelen, en we geven terugdeinzen, onze handen omhoog brengend om ons hoofd te beschermen.

Niet alleen dat, maar non-verbaal geluid speelt een grote rol in de manier waarop we met elkaar communiceren; bijvoorbeeld, in reactie op de huilende baby, kan een ouder kalmerende koerende geluiden maken, net zoals we tegen een grommend dier zouden kunnen schreeuwen om het weg te jagen.

Dus, als non-verbaal geluid zo belangrijk is voor ons begrip van de wereld en de manier waarop we communiceren, waarom zijn stem-geactiveerde assistenten zo opgehangen aan taal??

De missie van Audio Analytic

Een Brits bedrijf denkt dat het tijd is voor onze aangesloten apparaten om te leren over de kunst van het luisteren naar puur geluid - Audio Analytic is een Cambridge-bedrijf voor geluidherkenning dat zich toelegt op het verbeteren van slimme technologie in het huis.

Onder leiding van CEO en oprichter Dr. Chris Mitchell, heeft Audio Analytic's onderzoek naar geluidherkenning en AI betekend dat stemassistenten zoals Amazon Alexa binnenkort een belangrijke extra laag auditieve informatie zouden kunnen krijgen: context.

Na het behalen van een doctoraat, met de nadruk op het onderwijzen van computers om muziekgenres te herkennen, realiseerde Mitchell zich dat er geen bedrijven waren die voornamelijk in geluidherkenning werkten. Dus begon hij met een lijst van alle geluiden die hij kon bedenken en hun kenmerken en daarmee zette hij Audio Analytic op.

Hoewel Audio Analytic werd geboren op het gebied van bedrijfsbeveiliging, vertelde Mitchell ons dat “het bedrijf vond een markt in de elektronische consumentenruimte” zoals verbonden apparaten werden meer gemeengoed in het gemiddelde huishouden.

Met zo veel aangesloten microfoons die onze huizen binnenkomen via slimme luidsprekers zoals de Amazon Echo, Google Home en Apple HomePod, a “wereld van mogelijkheden” plotseling geopend voor het bedrijf - met een speciale focus op slimme huisbeveiliging.

Hoe maakt het mijn huis veiliger?

Dus, hoe kan geluidherkenningstechnologie slimme beveiligingsapparaten verbeteren? Nou, een voorbeeld is als een inbreker probeert in te breken in je huis, een raam in het proces kapot. Als uw slimme luidspreker de mogelijkheid heeft om geluid te interpreteren en de amplificatie, golflengte en geluidsfrequentie van het breken van glas correct te identificeren, kan deze u een melding sturen en een signaal naar andere aangesloten apparaten in huis sturen.

Dit werkt vooral goed wanneer je slimme beveiligingsapparaten hebt zoals de Hive Hub 360, waarin de geluidherkenningstechnologie van Audio Analytic is ingebouwd. Dit betekent dat het geluiden kan herkennen die zo gevarieerd zijn als het geblaf van je hond naar het geluid van het breken van je venster en als gevolg daarvan , kan andere Hive-apparaten activeren.

Dus als een raam in je huis breekt, kun je automatisch je bijenkorflichtjes instellen om een ​​potentiële indringer in te schakelen en af ​​te schrikken. Het slimme van deze technologie is dat het je niet over elk geluid in je huis informeert, alleen de geluiden die het belangrijk vindt, dankzij het sorteren van verschillende geluiden of 'ideofonen' in enorme sonische bibliotheken door Audio Analytic.

  • Beste slimme sloten: beveilig uw huis met een moderne smart lock

Hoe zit het met AI-assistenten?

Afgezien van de veiligheid van het huis, is het andere resultaat van verbeterde geluidherkenningstechnologie slimmere, meer empathische stemassistenten, zoals Mitchell uitlegt: “Als ik een stemassistent een gevoel van bewustzijn, welzijn en alle andere dingen kan geven die ik ken, afkomstig zijn van geluid, kunnen hun persoonlijkheden worden uitgebreid, evenals hun reactievermogen en hun bruikbaarheid.”

Denk terug aan de huilende baby en stel je voor dat je de geluidsbibliotheek van Audio Analytic hebt ingebouwd in de Amazon Echo Dot in de kamer van je kind. Het is 1 uur 's nachts en je zit rechtop in bed als je een melding op je smartphone krijgt dat de Echo Dot het geluid van een baby huilde.

Alexa zet vervolgens de lichten in je gang aan, zodat je je weg kunt vinden in het donker, terwijl de Echo Dot rustgevende muziek speelt in de babykamer. Misschien praat Alexa zelfs tegen de baby, haar geruststellend dat je onderweg bent, of leest ze haar misschien als een verhaaltje voor het slapengaan, kalmeert je kind tot je er bent en laat je haar in slaap vallen.

Of je dit nu zoet vindt, of dystopisch tot in het extreme, hangt grotendeels af van je gevoelens ten opzichte van de AI-technologie, maar duidelijk goede herkenning heeft het potentieel om stemassistenten zoals Alexa meer begrip, menselijker en oneindig intelligenter te maken.

Kijkend naar de toekomst

Je kunt de huilende kindanalogie nog verder nemen als je de verbinding tussen verschillende geluiden bekijkt. Hoewel de aandacht van Audio Analytic tot nu toe gericht was op individueel geluid, gelooft Mitchell dat de toekomst van het bedrijf ligt in de identificatie en contextualisering van meerdere geluiden samen.

“Stel je voor dat de baby huilt, en ze hoest veel en niest veel ... je begint ineens een veel rijker beeld op te bouwen ... dus, de combinatie van al deze geluidseffecten en de context [zij] verf kan sommige echt nuttig maken Kenmerken,” hij zegt.

Als een stemassistent de geluiden van huilen, hoesten en niezen kan identificeren, is het geen grote stap om te suggereren dat het op een dag in staat zou kunnen zijn om die geluiden aan elkaar te koppelen en een mogelijke oorzaak te kunnen afleiden - in dit geval zou de stemassistent kunnen veronderstellen de baby is niet lekker met verkoudheid en kan remedies voorstellen, het aantal voor de dokter verhogen of een hoestmiddel bestellen.

Dit soort rationele gedachten komt van nature voor de mens, maar het is nog steeds een vroege dag voor kunstmatig intelligente entiteiten; Geef AI-assistenten echter de juiste tools (d.w.z. expansieve sonische bibliotheken) en er is geen reden waarom dit in de toekomst geen mogelijkheid zou kunnen zijn..

Het probleem met AI

Natuurlijk zal het idee van een stemassistent die diagnoses stelt alarmbellen veroorzaken voor veel mensen - kunstmatige intelligentie is immers lang niet in staat om het menselijke brein op het gebied van redeneren en emotionele intelligentie te evenaren.

Kunstmatige intelligentie kan niet concurreren met miljoenen jaren van evolutie en sociale conditionering, en impliciete vooringenomenheid op het niveau van data en algoritmische modellen betekent dat stemassistenten racisme, gender en ideologische vooroordelen oppikken, waardoor het moeilijk voor ons wordt om ons vertrouwen te stellen in ze volledig.

Toch verbeteren stemassistenten die door machinaal leren worden ondersteund, elke dag beter, en het zal niet lang duren voordat we Alexa een beetje menselijker gaan zien, vooral als zijn algoritmen beter zijn opgeleid om zowel sonische als linguïstische gegevens te interpreteren.

En als dat betekent dat je in het donker niet meer over speelgoed hoeft te struikelen, tel dan ons in.

  • Beste slimme luidsprekers 2018: welke moet je kopen??