Röststyrning kräver tålamod

2000-01-27 08:43  
Det finns nu två program som klarar att tolka röster som talar svenska. Nya Free Speech 2000 från Philips utmanar Dragon Dictate som funnits några år.

Båda programmen kan användas för att dels styra datorn med rösten, dels ta emot diktamen och omvandla talet till text i ett dokument. Men de är helt olika i flera avseenden och används därför av olika grupper.

Free Speech passar bäst för det som ofta läser in kortare stycken, som läkardiagnoser. En snabb processor och mycket minne är nödvändigt. Dragon Dictate går att köra på äldre maskiner och har fler finesser. Det är fortfarande bästa programmet för proffs som läser in långa texter. Men också för handikappade, eftersom det låter användaren göra nästan allt med rösten.

Att öppna kartongerna och installera programmen är som en ny individs födelse. Programmen är snarare inlärningsapparater än igenkänningsapparater i början. De första timmarna känns det som man umgås med ett mycket litet barn, som man måste lära allt. Och genom att tänka på hur det är att kommunicera med barn är det också lättare att förstå de problem som röstigenkänningsprogrammen ställs inför när det försöker förstå mitt tal.

Det blev ett familjeskämt när dottern uppfattade béarnaisesås som berg-och-näs-sås. Men det visar hur olika vårt tal- och skrivspråk är. "Bengt har gått hem" blir i talspråket "bänk targå temm". "Tomas Carlsson vinner" har jag vid ett tillfälle tolkat som "Tomma skal som vinner".

Därför är det inte konstigt att Philips program först tolkar ordet "Free Speech" som "polisbil" och vid nästa försök skriver "möjligtvis Nietzsche". Här behövs massor av timmar med träning.

Alla språk består i grunden av 20-30 språkljud, fonem. Dessa motsvaras i stort sett av alfabetets tecken, men innehåller ingen betydelse. När fonemen sätts samman till enkla ord eller orddelar uppstår det första embryot, det betydelsebärande ljudet. "Aj" är ett sådant exempel. Det kallas morfem. Flera morfem bildar ord och fraser och till sist uppstår en hel mening, vilket i regel krävs för att andra ska förstå vad man vill uttrycka.

Antalet möjliga kombinationer av morfem är så stort att bara det ställer till problem för röstigenkänningsprogrammet. Till detta kommer idiomet, varje människas egna sätt att uttala de sammansatta språkbitarna. Dessutom säger vi inte samma ord likadant varje gång. Det växlar bland annat med humöret. Prova själv att säga: "jag älskar dig" när du just slagit hammaren i tummen.

Båda programmen tränas genom att användaren talar in text som programmet föreslår. Free Speech tolkar fraser och meningar, så kallat kontinuerligt tal, och vill därför att man ska läsa in hela meningar. Dragon Dictate, däremot, tolkar orden ett och ett, var för sig och vill att man pausar mellan varje ord. Det kallas diskret tal.

Men det går segt. Efter två timmars träning per program klarade inget av dem att ta min diktamen särskilt bra. Enligt reklamen kommer man igång med Free Speech på en kvart. Men i realiteten krävs många timmars tålamod innan det blir något vettigt resultat.

När datorer ska tolka någonting gäller generellt att en felprocent över en procent upplevs som odugligt. Här rör det sig i början om felprocent på 20, ibland 30-40.

Att tala till en maskin timme efter timme känns både fånigt och tråkigt. Men det känns varmt att ta del av resultatet när maskinen förstår mig.

Det är smidigare att kunna tala in hela meningar i en flytande ström vilket gör Free Speech mera bekvämt. Ett-ords-stötarna som Dragon Dictate vill ha stör tankebanorna en hel del. Att också behöva rätta ord för ord är störande. För den som är dyslektiker upplevs dock detta som lättare.

Dragon Dictate är också bättre för fysiskt handikappade, eftersom användaren kan skapa nya kommandon med hjälp av mikrofonen.

Tack vare att varje kommando består av två ord kan programmet också lättare särskilja när man vill skriva in "starta Word" eller när man verkligen vill starta programmet Word. I Free Speech var det näst intill omöjligt att använda vissa ord i diktamen. Ett exempel är ordet "markera" som uppfattades som ett kommando. Båda programmen har problem med ordet "komma".

Ordförrådet är mer än 100 000 ord i båda programmen, vilket är mer än nog. Det går också lätt att lägga till sina egna specialord. Däremot saknas en standard för röstprofil eller ordförråd. Det träningsarbete och den bank av ord jag jobbat fram vill jag kunna exportera till framtidens röstigenkänningsprogram.

Normalt sett ska man använda ett röstigenkänningsprogram tillsammans med ett headset. Det är bekvämast och ger fria händer för korrigeringar med mus och tangentbord. Men Free Speech säljs också med en handenhet som innehåller mikrofon, högtalare, muskula och musknappar. Den är säkert perfekt för dikterande läkare. Den tolererade dock inte för högt högtalarljud utan att orsaka rundgångstjut.

Cyniskt nog är det inte dagens största konsumentgrupper, sjukvårdspersonal och de handikappade, som är framtidens största marknad för röstigenkänningsprodukter. Det är alltså inte de utan armar, utan de med båda armarna upptagna av annat arbete, som bildar framtidens stora hägrande marknad. Röstigenkänning i framtiden är istället en produkt för mobiltelefoner, inbyggnad i bildatorer och i andra maskiner och apparater där två armar inte är nog.

Innan drömmen om den helt röststyrda datorn uppfylls måste dock inlärningstiden för varje ny användare kortas avsevärt. Tänk själv vad en feltolkning innebär i dialogrutan "Vill du spara? Ja - Nej".

Tomas Carlsson

Kommentarer

Välkommen att säga din mening på Ny Teknik.

Principen för våra regler är enkel: visa respekt för de personer vi skriver om och andra läsare som kommenterar artiklarna. Alla kommentarer modereras efter publiceringen av Ny Teknik eller av oss anlitad personal.

  Kommentarer

Debatt