Voicetechnologie bezig aan stevige opmars

Er is een nieuwe technologie die de interesse wekt van uitgevers. Voice gaat impact maken. Misschien niet direct, maar wel op termijn. In iedere geval is voice langzamerhand een gedragsverandering bij consumenten teweeg aan het brengen. De vraag is: hoe ga je daar als uitgever mee om? Carolien Vader van bladendokter.nl schreef naar aanleiding van de MMA Masterclass Voice & Business speciaal voor de leden van de Magazine Media Associatie een whitepaper over deze nieuwe technologie.

Even wat cijfers. ‘Praatpalen’, zoals de Google Home of Amazon Alexa zijn bezig aan een stevige opmars.

  • In ruim een kwart van Amerikaanse huishoudens staat inmiddels zo’n smart speaker
  • Dit percentage zal groeien naar 50% in de komende 3 jaar
  • In 2030 zullen er wereldwijd zo’n 225 miljoen praatpalen actief zijn
  • E-commerce via Alexa zal in 2020 ruim 5 miljard dollar opleveren
  • 30% van alle online sessies zullen komen via een voice instructie

Al deze gegevens staan in het ‘Innovation in Media 2019-2020 World Report’ van de FIPP. Ook de Reuters Institute for the Study of Journalism noemt voice als een van de belangrijkste speerpunten voor uitgevers in de komende jaren. Uit hun trendrapport blijkt dat:

  • 78% van uitgevers wereldwijd van mening is dat voice een invloed gaat hebben op de toegang tot media
  • 75% van ondervraagden zegt audio belangrijker wordt voor uitgevers in de komende jaren

Is het een Hype?

Moet je als uitgever dan mee met deze nieuwe innovatie? Moet je je als hongerige honden storten op deze technische nouveauté? Nee. Innoveren met spraakassistenten is misschien niet zo ingewikkeld, maar het vinden van een businessmodel is nog een hele uitdaging, zo bleek uit de MMA Masterclass Voice en Business, die de Magazine Media Associatie (MMA) organiseerde op 11 en 12 april 2019.

Voice is nog niet vergevorderd op de Gartner Hype cycle. Deze cycle laat tijdsverloop zien en zet dat af tegen de verwachtingen van innovaties bij consumenten en bedrijven (zie model hieronder). Aan het begin van de hype cycle staat de innovation trigger, gevolgd door de peak of inflated expectations. Dat is de fase waarin iedereen denkt dat de innovatie hèt nieuwe ding wordt. Denk even aan Google Glass, bijvoorbeeld. Maar het opkloppen van deze hype heeft gevolgen. Meestal dondert de hoge verwachting naar de through of desillusion (trog van desillusie). Producten die daaruit weten te klauteren, zijn langzaam op weg naar een duurzame toekomst. Dat zijn de laatste twee fases: 4: slope of enlightment. 5: plateau of productivity.

Even terug naar Google Glass. Als B2C product is de digitale bril geflopt. Maar als B2B-product is de digitale bril stilletjes onderweg naar succes. Zowel Google, Intel als andere aanbieders hebben de bril als opgenomen in een B2B dienstverlening en verder ontwikkeld. En inmiddels is de Google Glas aanbelandt in fase 4, de slope of Enlightment. Het wordt gebruikt door chirurgen die tijdens operaties (met handen in of op de patiënt) collega’s, handleidingen of documentatie willen raadplegen. Het wordt gebruikt door ingenieurs die tijdens reparaties instructies ontvangen voor hun werk.

En waar zit voice op de Hype cycle? Spraakassistenten bevinden zich nu op de laatste fase van 2 en ‘Artificial Intelligence conversation platforms’ staan aan het begin van 2. Ze zijn dus beide aanwezig in de peak of inflated expectations, zo stelt Sander Goudswaard van Makersstreet innovatie, tijdens de Masterclass voice en business. Hij concludeert: “Er wordt nu maar wat aangemodderd.” Bij voice assistents zijn de meeste kinderziektes er al uit. Maar een echt businessmodel zit er wat hem betreft nog niet in.

Gebruik van voice

Voice wordt meer gebruikt door een jonge doelgroep. Uit onderzoek van Higher Visability blijkt dat voice het meest gebruikt wordt voor:

  • Om iemand te bellen (43% teens – 31% adults)
  • Om routebeschrijving te vragen (38% teens – 40% adults)
  • Om tekst te dicteren (39% adults)
  • Om te helpen met huiswerk (31% teens)
  • Om muziek af te spelen (30% teens)

Voice wordt dan ook vooral gebruikt in situaties waarin gebruikers bezig zijn of hun handen niet vrij hebben. Denk aan situaties tijdens het autorijden (52,8%), tijdens het uitvoeren van werkzaamheden (21,3%) tijdens het tv-kijken (7,5%), tijdens het werk (7,4%) of tijdens het koken (5,5%).
Ook bij het zoeken naar informatie wordt voice veel gebruikt. Volgens Google zelf al in 30% van alle zoekacties. 87% van gebruikers denkt dat zoekresultaten, die zijn verkregen uit een verbaal commando accuraat zijn.
Er is door analisten van Canalys berekend dat er aan het einde van 2019 meer dan 200 miljoen geïnstalleerde smart speakers zijn verkocht. Lees hun onderzoek hier.

Case: De evolutie van een aankoop

Stel je wilt batterijen kopen. Voor de komst van het web was je een half uur kwijt, doordat je naar een fysieke winkel moest reizen, daar je keuzes moest maken en in de rij moest wachten voor een kassa. Bij aankopen via een webshop ben je zo’n 5 minuten kwijt. Je navigeert naar een shop, maakt een keuze, klikt op het product, en rekent af. In een situatie waarin je jouw voice assistent vraagt om batterijen te kopen. Ben je slechts luttele seconden kwijt. ‘Vraag Alexa om batterijen te bestellen’. De assistent van Amazon voegt batterijen toe aan jouw bestellijst. Welke optie Alexa kiest, dat is natuurlijk de vraag. Je kunt als gebruiker specifiek om een soort en merk batterij vragen, of Alexa neemt je mee in het doorlopen van een aantal opties.

Je ziet bij consumenten nu voorzichtig de eerste voice toepassingen. Voice wordt gebruikt om zaken in het huis te regelen, zoals temperatuur en verlichting doordat de ‘praatpalen’ zijn gekoppeld aan slimme thermostaten of Hue lampen. Voice technologie zit in slimme koelkasten en TV’s (Internet of Things. Je kunt ook voice commando’s gebruiken om het weer te checken, de verkeerssituatie, muziek of een podcast af te spelen, een timer in te stellen of een bericht aan jezelf te sturen.

Zijn er al mediatoepassingen? Weinig. De NOS, RTL, ANP en de Telegraaf hebben een tool, waarbij je nieuwsfragmenten te horen krijgt. In Amerika zijn er meer voorbeelden. Zo kun je via de praatpaal je horoscoop raadplegen. Gebruikers krijgen dan de Horoscoop van Elle te horen, omdat Elle de eerste is die het commando ‘read my horoscoop’ heeft geclaimd als commando. Ook konden fans van Oprah Winfrey tijdens de kerstperiode ingesproken boodschappen van Oprah zelf in de huiskamer krijgen.

Het zijn de eerste voice experimenten op het gebied van media, maar ze zijn nog niet voorzien van een goed businessmodel. Dat lijkt in media nu niet voorhanden. Hoewel het in andere branches toch lijkt te lukken. Zo wordt voice toegepast om auto’s smart te maken. Je kunt al praten met je BMW, Mercedes en Audi om de auto bepaalde taken te laten uitvoeren. Ook in de verpleging biedt voice uitkomsten. Bijvoorbeeld in de oudere zorg, waar bejaarden om hulp kunnen roepen, als ze gevallen zijn. Hun woningen moeten dan wel voorzien zijn van smart speakers.

Ook wordt voice toegepast in de game wereld. Spelers kunnen in plaats van een controller hun stem gebruiken om een spel te besturen en acties uit te voeren. Ook voor een jonge doelgroep zijn er de nodige innovaties. Zo kun je duplo vragen om spelen kinderen te stimuleren om bepaalde bouwwerken te maken, die samengaan met een verhaal via de praatpaal. En Disney ontwikkelde voorleesboekjes die reageren op de voorleesstem en het verhaal ondersteunen met audiofragmenten (denk hoefgeklop en trompetgeschal bij de aankomst van de ridder).

Starten met voice

Bij voice kun je kijken naar hardware. Dat zijn de ‘praatpalen’ of de ‘smart speakers’. Google heeft de Google Home in verschillende producten en variaties. Amazon heeft de Echo in verschillende variaties. Facebook heeft Facebook portal. Dit betreft allemaal losse apparaten, die je in je huis of kantoor kunt plaatsen. Een Smart speaker is niet meer dan een microfoon en een speaker, verbonden met het internet. Maar het draait natuurlijk om de technologie. De Google Assistent, Amazone Alexa, Microsoft Cortana, die je via windows kunt bedienen. En Apple heeft Siri en Samsung heeft Bixbi als losse technologie via de mobile devices.

Voice technologie werkt onder andere met zoekresultaten om antwoorden te geven op vragen van gebruikers. En hier ligt een kans voor uitgevers.

Periodiek wordt er een IQ test gedaan voor de virtuele assistenten. Ze krijgen 800 vragen toegespeeld in 5 categorieën.

Dan wordt er onderzoek gedaan. Ten eerste wordt gekeken of de vraag werd begrepen. Pas daarna is er gekeken of het verkregen antwoord correct is. Al jaren op rij is Google Home de slimste in dit onderzoek.

In hoeverre je jouw content geschikt kunt maken voor voice, daarover is weinig bekend. Maar je kunt sommige content wel beschikbaar stellen via een bepaald commando.

Applicaties bouwen

Wie eens wil werken met voice kan een voice applicatie maken. Dat noem je een Action voor Google Home en een Skill voor Amazon Alexa. Voorbeeld: Albert Hein heeft Appie. Die kun je als gebruiker koppelen aan jouw smart speaker. Je neemt als het ware een abonnement (betaald of niet). Via voice kun je als gebruiker met Appie praten. Je kunt boodschappen toevoegen aan je lijst en recepten opvragen.

Je start als gebruiker met een aanroep: ‘Hey Google, praat met Appie’. Google zet de Actie in werking. En dan volgt een handeling: Appie stelt de gebruiker een vraag (voorbeeld: Goede morgen Carolien, wat kan ik voor je doen?) of start een actie. Dan volgt de intentie van de gebruikers (voorbeeld: zet koffiebonen op mijn boodschappenlijst). Dan volgt daar weer een actie op (bijvoorbeeld de vraag of ik dezelfde bonen wil, als bij mij vorige bestelling). Dan voltooit de gebruiker de interactie (voorbeeld: Appie: kan ik nog iets voor je doen? Carolien: nee). En dan sluit de actie af.

Het is belangrijk dat de content in relatie tot zo’n Action of Skill gekoppeld is aan een database. Bijvoorbeeld de producten die Albert Heijn beschikbaar heeft (groot), of alleen de beschikbare merken koffiebonen bij AH (kleiner), of een persoonlijke lijst met recente bestellingen van de gebruiker (nog kleiner). Denk ook aan een database met recepten, met weersvoorspellingen, met verkeersscenario’s, met lampen en lichtscenario’s (Phillips Hue), en ga zo maar door.

Er zijn voor Nederlandse gebruikers verschillende acties beschikbaar voor Google Home (het enige apparaat dat nu Nederlands speekt). Je vindt ze hier: assistent.google.com. Je hebt als gebruiker meer keuze bij Engelstalige Actions. Hier vind je het Engelstalige menu.

Let bij de Actions bijvoorbeeld eens op de verschillende commando’s voor het voorlezen van nieuws. Sommige mediamerken gebruiken dezelfde commando’s. Er wordt beweerd dat er een run op commando’s aan het ontstaan is, die vergelijkbaar is met de run op URL, zo rond de eeuwwisseling. Als je plannen hebt om te investeren in voice technologie, dan is het wel zaak om er snel bij te zijn.

Aan de slag

Er zijn verschillende tools om een Action of Skill te bouwen. Een hele gebruikersvriendelijke is IFTTT (If This Then That). Deze service is vooral voor hele simpele handelingen. Bijvoorbeeld: je bent je telefoon kwijt en je kunt jouw voice assistent naar je telefoon laten bellen als je daarom vraagt. Het commando is dan ‘Hey Google’, bel m’n telefoon. En de actie van Google is dan om jouw nummer te bellen. Een andere applicatie is Story Speaker.

Google heeft zelf een uitgebreide instructie om te starten met het bouwen van Actions. Die instructies zijn voor iedereen beschikbaar en geven je als ontwikkelaar een goed inzicht in hoe je te werk moet gaan. Die vind je hier. Achter deze URL zit een uitgebreid menu met sjablonen die bestaan uit voorgeprogrammeerde Google Sheets. Die kun je gebruiken om hele simpele acties te maken. Natuurlijk is er ook de optie om zelf dingen te bouwen.

Voice: Klant- en businesspropositie

Dan de strategische kant. Wat ga je ontwikkelen? En met welke applicatie zorg je voor een toegevoegde waarde bij gebruikers? Nieuwe producten en diensten hebben een grotere kans van slagen als ze daadwerkelijk een toegevoegde waarde hebben.

Harvard heeft in 2016 een model ontwikkeld om klantwaarde inzichtelijk te maken. Daarin wijzen ze 30 elementen toe die het leven van mensen verrijken en die dus – eenmaal gekoppeld aan producten of diensten – een belangrijk onderdeel vormen in een zakelijke strategie. Deze 30 elementen hebben niet alleen betrekking op voice, maar kun je op al je uitgeefactiviteiten betrekken.

Deze elementen zijn onderverdeeld in:

  1. functionele doelen
  2. emotionele doelen
  3. life changing doelen
  4. sociale impact

Voorbeelden van functionele doelen die betrekking kunnen hebben op voice applicaties zijn: het snel uitvoeren van taken, tijd besparen, het simplificeren van taken, gedoe vermijden en moeite verminderen.

Denk aan toepassingen als:

  • Voice als alternatieve interactie (lichten aan- en uitzetten)
  • Assistent voor het moment (een deur openen als je je handen vol hebt of ze niet kunt gebruiken)
  • Versimpeling van lastige interacties (denk aan het maken van een boodschappenlijst of het vinden van een recept)
  • Voice voor de entertainmentindustrie (denk aan gamen of de Disney voorleesboekjes)
  • Conversatie (bijvoorbeeld de zorgrobot voor eenzame ouderen)
  • Learning (iets opvragen of leren)
  • Tone of voice – Conversatie ontwerpen

Met het koppelen van Google Home via een internetverbinding aan een database met content ben je er niet. Je zult bij het bouwen van een voice applicatie ook moeten bepalen wat de intentie is van de gebruiker en die intentie kunnen koppelen aan bepaalde acties. Dat noem je Dialog Flow. Google Dialog Flow is een dienst van Google, die ontwikkelaars helpen om de juiste keuzes hierin te maken. Dialog Flow is de plek waarin de interpretaties plaatsvinden van wat gebruikers zeggen of vragen.

In Dialog Flow krijg je analyses en feedback over welke vragen, commando’s of antwoorden beter werken en welke niet. Daarmee kun je jouw product telkens fine tunen. Dialog Flow is een tool waarin je telkens de conversatie binnen jouw applicatie kunt optimaliseren. Je moet daar ‘training phrases’ invoeren, zodat er een variatie ontstaat in mogelijke vragen en de antwoorden die daarbij horen. Google heeft een AI-toepassing die steeds slimmer wordt in het herkennen van de juiste intenties.

Ook Adobe is bezig met de ontwikkeling van een tool binnen Adobe Audition. Dit wordt een plug in, waarin je je eigen stem kunt digitaliseren. Door het voorlezen van 20 minuten tekst, analyseert audition jouw persoonlijke stem voor digitalisering.

Belangrijk bij voice applicaties is dat de stem ook bijdraagt aan het doel van de applicatie en het merk dat de service op de markt brengt. Hoe klinkt Albert Heijn. Is het een man, een vrouw, een robot, of een gender neutrale stem? En hoe is de toon: zacht, hulpvaardig en bemoedigend. Of streng en direct, zoal bijvoorbeeld bij instructies.

Google heeft een goede site waarin je voor design principes te raden kunt gaan: designguidelines.withgoogle.com. En verder zul je echt moeten nadenken over de ‘branding’ van je voice applicatie.

Nadenken over de persoonlijkheid van jouw merk, hoort bij het ontwerpen van een voice applicatie. Een goed startpunt zijn de zogehete ‘Brand archetypes’. Een goede ‘brand voice’ is de combinatie tussen: merkwaarde, persoonlijkheid en de beoogde doelgroep.
Niet alleen de persoonlijkheid van het merk speelt een rol in conversatie, ook het doel van de applicatie. Goede UX writing vindt de toon die bij het juiste moment past. Vervolgens kijk jr naar je doelen (zorgen, instrueren, uitleggen, uitvoeren), maar ook naar de juiste emotie van het moment.

Conclusie

Je kunt concluderen dat technologie voor voice applicaties zeer toegankelijk is. En het is een inspirerend proces om hier mee te gaan starten en experimenteren. De beperkte hoeveelheid acties in de Nederlandse ‘store’ van Google Home biedt bovendien kansen. Je kunt als uitgever zelf met beperkte middelen aan de slag.

Dit verslag is gemaakt door Carolien Vader van bladendokter.nl n.a.v. de MMA Masterclass Voice en Business op 11 en 12 april 2019, georganiseerd door de Magazine Media Associatie.

Deel dit artikel