Bedrijven die voice-apps en andere spraakgestuurde toepassingen ontwikkelen, lopen tegen een interessante uitdaging aan. Is er een schaalbaar stemgeluid te ontwikkelen dat past bij het merk? Handpicked Labs nam de proef op de som en trainde een voice-over op basis van geluidsdata. Het prototype is veelbelovend. Een computer geautomatiseerd laten spreken met iemands stem is betrekkelijk dichtbij.

Wie met behulp van software tekst wil omzetten naar spraak heeft een aantal opties, zo vertelt Samet Yilmaz. Als Technical Director of Innovations zoekt hij binnen Handpicked Labs naar de meest bruikbare opties. Bekende systemen als Google Text-to-Speech, IBM Watson en Amazon Polly leveren in zijn ervaring redelijke output, maar de stemmen zijn hoorbaar computergegenereerd. “Ons doel is daarom om met behulp van echte audiodata en machine learning een model te trainen dat vervolgens natuurlijke spraak genereert.”

Netwerk van taal

De afgelopen maanden heeft het bedrijf daarom gewerkt aan een bruikbaar prototype, gebaseerd op Tacotron 2. Die oplossing is door Google eerder al eens beschreven in een onderzoekspaper en zodoende met de nodige inspanning na te maken door derden. Onder meer de hardwareproducent NVIDIA en Rayhane Mamah hebben vervolgens een eigen variant ontwikkeld en (open source) gepubliceerd.

Handpicked Labs heeft Mamahs oplossing gebruikt en getraind met spraakdata. Eerst met de data van een Engelstalige die haar gegevens online beschikbaar heeft gesteld. In een later stadium met Nederlandstalige audioboeken die online vindbaar zijn. In feite creëert het model op basis van de geluidsfragmenten een enorm netwerkdiagram, legt Yilmaz uit. Ieder woord en elke letter uit het alfabet correspondeert met een het spectogram van een klein fragmentje. Dat laatste is de vertaling van de geluidsgolven en bevat rijke informatie als de toonhoogte, het geluid zelf, de bas en andere gegevens.

Is het model eenmaal is gevoed met een paar honderd uur aan geluidsdata, dan leert Tacotron daadwerkelijk hoe het in het vervolg niet eerder geziene zinnen op de juiste manier moet uitspreken. Het mooie hiervan, zo heeft Yilmaz ervaren, is dat er dan nog slechts een paar uur aan geluidsdata nodig is om het model te hertrainen en met een totaal ander stemgeluid te spreken. De manier van praten verandert weliswaar niet, de klankkleur en het geluid die er overheen worden gelegd wel. Zo zijn bij wijze van proef enkele audioboeken van de schrijver Herman Koch ingezet. “Met een behoorlijk resultaat. De beperking is vooral geweest dat we slechts over een half uur aan materiaal beschikten. Het gevolg daarvan is dat een voor het model nieuw woord soms met een rare intonatie wordt uitgesproken. Ik verwacht dat dit bij extra training afneemt.”

Veelbelovend met uitdagingen

Hoewel hij enthousiast is over het resultaat, ziet hij voor dit moment nog enkele belangrijke uitdagingen. De technologie is nu goed genoeg voor een eenvoudige assistent of de persoonlijke boodschap van een bekende Nederlander, voor andere doeleinden is nog meer training nodig. “Bedrijven die de oplossing in een voice-app gebruiken, moeten dus audiodata blijven toevoegen en valideren. De kwaliteit is nog niet altijd te waarborgen. Die verwachting moet je richting gebruikers dus goed managen.”

Met name het aspect van emotie in de stem is nog niet onder de knie. “De hoogte en snelheid van praten blijkt bijvoorbeeld nog geen duidelijke voorspeller van blijdschap. Voor ons is nu dus de vraag hoe we dit beter kunnen herkennen.” Belangrijker nog is dat er meer Nederlandse spraakdata beschikbaar komt. Behalve de set waarmee Handpicked Labs werkte, is er zeer recent ook Mozilla’s Common Voice-project uitgebreid met Nederlandse open source data. In totaal is er zo’n tweehonderd uur aan spraak toegevoegd.

Voor merken die zoeken naar een eigen schaalbaar stemprofiel, biedt de technologie hoop, denkt Yilmaz. Hiermee kunnen ze op termijn immers een onderscheidend geluid laten horen via spraakgestuurde assistenten en slimme thuisapparaten. Handpicked agencies, waar het lab onderdeel van is, wil de proef gebruiken voor het werk van label TDE. Het doel is om deelnemers van de marathon in Rotterdam een steeds slimmere medaille uit te reiken. En iedereen op den duur een persoonlijk wedstrijdverslag van een commentator mee te geven. Ook in een minder commerciële context ziet hij daarnaast mogelijkheden. “Iemand die door een ziekte of ongeval zijn stem kwijtraakt zou een spraakcomputer kunnen trainen te spreken met de digitale versie van diegene zijn eigen stem. Dit is echt een snel opkomende en veelbelovende technologie.”