Waarom stemherkenning niet langer alleen maar een gimmick is
Nieuws"Ik beschouw het als een goed voorteken dat draadloos zijn huidige perfectie zou hebben bereikt in een tijd dat het rijk nauwer is verbonden, want het biedt ons enorme mogelijkheden om die unie dichterbij te brengen." De wereld heeft een lange weg afgelegd sinds Koning George V die woorden in een microfoon uitsprak tijdens de allereerste Kersttoespraak die de BBC in 1932 uitzond.
Vandaag, 82 jaar later, zou King George ongetwijfeld vol ongeloof hebben gestaard terwijl ik mijn smartphone vraag om een opname van zijn beroemde woorden via YouTube op internet te vinden. Toch geloof ik dat naar mening van een bescheiden 'gewone man', stemherkenning en dicteersystemen eindelijk volwassen zijn geworden.
In relatieve termen - althans sinds de geboorte van het digitale tijdperk - zijn spraakdictatietoepassingen niets bijzonders nieuw. Het noodlottige Belgische bedrijf Lernout en Hauspie ontwikkelden al in 1987 spraakherkenningssystemen en kochten Dictaphone en Dragon Systems aan het begin van het millennium om hun productbasis te vergroten..
Hoewel het bedrijf niet meer bestaat, is Microsoft doorgegaan met het gebruik van een deel van de spraakinterface-technologie van L & H.
Een volwassen wordende technologie
Veel van de vroege applicaties waren echter schilferig en onbetrouwbaar, waardoor spraakdatabanken gekoppeld moesten worden aan algoritmen en 'training' op basis van een paar honderd gebruikers die deelnamen aan onderzoeks- en ontwikkelingsprogramma's..
Tegenwoordig is er met de opkomst van cloud- en big data een vrijwel oneindige hoeveelheid spraakgegevens beschikbaar van 'echte' gebruikers die zijn gekoppeld aan servers die talen en gecompliceerde woorden definiëren en verwerken zonder enige training van algoritme of gebruiker. Deze zeewijziging wordt bewezen door de verfijning van Apples Siri en DragonDictate's mobiele app, die zelfs leren van je eigen vocabulaire als het meegaat.
Nu heeft iedereen (zonder een echt zwaar accent) toegang tot gratis, op de consument gebaseerde spraakherkennings- en dicteerhulpmiddelen, betrouwbaar en zonder enige training. Bovendien is de dataset voor het gebruik van stemvertaling exponentieel gegroeid.
Zonder twijfel heeft deze paradigmaverschuiving in technologie voice-gebaseerde systemen veranderd van eigenzinnige techno-gimmicks naar echte business tools.
Waarom? Omdat het tempo van ontwikkeling zo snel is gestegen, niet alleen geholpen door big data, maar ook door de vraag naar 'hyper-tasking'-tools die de vraag van consumenten naar directheid en het werken op verplaatsing kunnen bijhouden. Het is zeker sneller dan typen op een mobiel scherm en, voor degenen die niet kunnen tikken, vaak sneller dan met een desktoptoetsenbord.
Verbeteringen van tekst-naar-spraak
Er is ook een coming-of-age voor tekst-naar-spraak-toepassingen. Eenmaal beperkt tot een nichehulpmiddel voor de slechtziende en toegankelijkheidsmarkten, heeft de revolutie in mobiele apparaten en in het bijzonder in-car systemen een bredere consumentenvraag gegenereerd voor software die tekst kan lezen zonder als een vreemde taal te klinken..
Tekst-naar-spraak heeft zelfs een onverwacht voordeel als het gaat om proeflezen. Een journalistieke vriend van me vertelde me dat, ongeacht of hij voor uitzending of druk schrijft, hij altijd alles leest wat hij hard heeft getypt.
Het geeft hem niet alleen een gevoel van het schrijven in het algemeen, maar het is de beste manier om spellingsfouten op te vangen die anders zouden worden gemist met stil lezen, waarbij een ander deel van de hersenen wordt gebruikt. Hetzelfde geldt voor tekst-naar-spraaktechnologie. Immers, waar zouden we zijn zonder literaire klassiekers als "The DaVinci Cod" of Gabriel "Honderd oren van eenzaamheid" van Gabriel Garcia Marquez?
Tien jaar geleden was spraakdictatiesoftware eigenlijk alleen maar het domein van secretaresses, advocaten, medici en af en toe een slimme leidinggevende. Tegenwoordig is het bijna vanzelfsprekend en het resultaat zou een dramatische toename van de productiviteit en een veiliger leven in beweging kunnen zijn.
Eindelijk, als je een van die sceptici bent, misschien zwaar getraumatiseerd door de inspanning van het eerder gebruikte incarnaties van spraakdicteren - waarom geef je dan niet een paar van deze nieuwe systemen? Probeer Google Now, Apple Siri of de Nuance Dragon Dictate-app?
- Dr. Peter Chadha is Managing Director van Dr Pete Inc en Steegle.com. Hij is een IT-consultant die strategische IT-evaluaties en -implementaties levert aan wereldwijde ondernemingen. Hij neemt een pragmatische benadering van bedrijfsoplossingen, maar is een technologische evangelist.