Kolla – datorn simultantolkar till mandarin!

2012-11-12 12:46  

Microsofts forskningschef, Rick Rashid, pratar engelska, och bara sekunder senare upprepar datorn innehållet på mandarin, med ungefär samma röst. Se hans presentation inför kinesiska studenter.

Det största genombrottet sedan 1979 inom talförståelse och översättning. Så karakteriserar Microsofts forskningschef Rick Rashid ett arbete som Microsoft bedrivit under de senaste två åren.

Vid en presentation i staden Tianjin i Nordöstra Kina berättade han om framstegen och gjorde en demonstration inför 2000 studenter – de flesta kinesiska.

Bakgrunden, som Rick Rashid beskriver i en bloggpost, är att forskare arbetat med talförståelse sedan 60 år tillbaka. De första metoderna byggde på igenkänning och matchning av vågformer, ord för ord, men eftersom även samma person kan uttala ord på väldigt olika sätt är sådana metoder svaga.

Därför var det ett stort genombrott när man 1979 började undersöka möjligheterna att använda ett slags statistisk metod som kallas dold Markovmodell. Genom tillgång till stora mängder data och stor beräkningskraft gav det betydligt stabilare resultat, både inom röstförståelse och översättning, och det är den gängse metoden i dag.

Det Microsoft nu arbetat med sedan två år tillsammans med Torontos universitet är vad man kallar Deep Neural Networks, en teknik som efterliknar hjärnans arbetssätt. Och Rick Rashid hävdar att tekniken lett till en sänkt felfrekvens vid datorbaserad röstförståelse med över 30 procent.

I praktiken innebär det ett felaktigt ord för var sjunde eller åttonde ord, mot vart fjärde eller femte tidigare.

Långt ifrån perfekt, men lovande, konstaterar Rick Rashid. Han understryker att mycket arbete återstår men att man hoppas kunna ha ett system som helt bryter ner språkbarriärer klart om några år.

I videon nedan från presentationen förklarar Rick Rashid teknikens utveckling och avslutar med en demonstration av hur datorsystemet simultantolkar hans engelska till mandarin. Den kinesiska datorrösten är ett slags blandning av rösten hos en kinesisk person och av Rick Rashids egen röstkaraktär, baserad på några timmars inspelning av den kinesiska rösten och en timme av Rick Rashids röst.

<iframe width="468" height="315" src="http://www.youtube.com/embed/Nu-nlQqFCKg" frameborder="0" allowfullscreen></iframe>

Mats Lewan

Kommentarer

Välkommen att säga din mening på Ny Teknik.

Principen för våra regler är enkel: visa respekt för de personer vi skriver om och andra läsare som kommenterar artiklarna. Alla kommentarer modereras efter publiceringen av Ny Teknik eller av oss anlitad personal.

  Kommentarer

Debatt