Foto: Jörgen Appelgren

KTH-metoden ska ge ett intressant ai-samtal i 20 minuter

Röstassistenter har blivit bra på att lyssna. Att däremot konversera är fortfarande svårt. Nu ska ett team från KTH testa en ny metod.

Peter Ottsjö

Säg ”Let’s wreck a nice beach” snabbt. Säg sedan ”Let’s recognize speech” snabbt.

En människa kan mer eller mindre automatiskt skilja på de två fraserna, bland annat med hjälp av sammanhanget de uttalades i. För en dator är det inte lika enkelt, i synnerhet inte om det finns brus i omgivningen.

Men tack vare de senaste årens tekniksprång är automatisk taligenkänning nu så bra att den blivit användbar i våra hem.

– Tidigare var den mest känsliga delen av systemet den som ska omvandla tal till text. Den fungerade väldigt dåligt och gjorde att systemen inte blev användbara. Ett av de stora framstegen har varit djupinlärning applicerat på taligenkänning. Vi har tillgång till stora mängder data, snabbare processorer och delvis utvecklade algoritmer.

– Att systemet lyckas pricka rätt när jag säger ”spela” och en låttitel är ganska otroligt, med tanke på att det finns hundratusentals olika låttitlar jag kan säga. Om någon för tio år sedan sagt att det skulle vara möjligt i dag hade jag knappt trott dem, för det är ett så svårt problem man löst.

Han som är imponerad heter Gabriel Skantze och är universitetslektor vid avdelningen för tal, musik och hörsel på KTH. Han är dessutom medgrundare av startupbolaget Furhat, som tillverkar sociala robotar. Gabriel Skantze har arbetat med och forskat kring interaktion mellan människa och maskin i snart två decennier.

Försöker få kontakt. Gabriel Skantze, universitetslektor på KTH, leder ett projekt för att utveckla en konversationsbot som kan föra meningsfulla samtal. Han är också medgrundare av robotföretaget Furhat, och har ägnat sin karriär åt att förbättra interaktionen mellan människa och maskin. Foto: Jörgen Appelgren

Den erfarenheten och kunskapen kommer att sättas på hårt prov senare i år, när ett av Gabriel Skantze lett KTH-team valts ut att tävla i Amazon-tävlingen Alexa Prize.

”En jättesvår utmaning”

Alexa är namnet på den digitala assistent Amazon stoppar in i allehanda enheter, inte minst de egna smarta Echo-högtalarna. Målet med tävlingen är att bygga en konversationsbot som ska kunna föra ett intressant samtal om vilket ämne som helst med en människa i 20 minuter.

– Det är en jättesvår utmaning. Det problemet är av en annan art. Vad som är lämpligt att säga i en konversation beror på oerhört många faktorer, säger Gabriel Skantze.

Enligt tidskriften Wired har Amazon 5 000 personer som jobbar på internetjättens Alexa-division. Det är en enorm satsning på röstteknik, och Alexa Prize-tävlingen är ett av uttrycken för de högtflygande ambitionerna.

Läs mer: Smarta högtalaren har blivit en del av familjen: ”Alexa läser sagor för våra barn”

När tävlingen hölls första gången i fjol ansökte över 100 universitet från 22 länder om att få delta. Ett tiotal valdes ut och fick vardera ett bidrag på 100 000 dollar. University of Washington, som till slut vann hela kalaset, fick en halv miljon dollar för besväret.

Men företaget självt gick inte direkt lottlöst. Under tävlingsperioden kunde vem som helst med en Amazon Echo säga, ”Alexa, let’s chat”, varpå användaren fick chatta med en bot från något av de deltagande universiteten. På så sätt fick Amazon tillgång till över 100 000 timmar av konversationsdata.

Alexa har en röst men inget ansikte. Den digitala assistenten bor i Amazons Echo-högtalare. Foto: Amazon

Senare i år blir KTH:s eget bidrag, döpt till Fantom, en av åtta utvalda botar som Echo-användare kan få tala med och sätta betyg på.

Algoritmen dålig på att klura

Det var med en hybrid av maskininlärning och förutbestämda regler som University of Washington vann tävlingen i fjol. För även om maskininlärning för tillfället är en het teknik så har den ingen naturlig fallenhet för dialog med människor. Det beror delvis på att hur mycket konversationsdata en maskininlärningsalgoritm än trålar på internet kan den inte klura ut vad som är intressant.

– Vissa har försökt skanna undertexter till filmer eller hämta utskrivna konversationer från forum som Reddit. Men det är väldigt svårt att få det bra. Ofta blir svaren meningslösa, eller direkt olämpliga. Om du frågar mig vilken som är min favoritfilm och jag svarar att jag inte vet, då är ju det en rimlig men tråkig respons. Hur ska en dator lära sig, givet att bara titta på konversationer, vad som är ett intressant respektive ointressant svar?

Läs mer: ”Hej Alexa, kan du avlyssna mitt hem, tack?”

Det är en nyckelfråga, och Gabriel Skantze tror sig ha ett svar. Till Alexa-tävlingen ska KTH använda Amazons gräsrotsplattform och marknadsplats Mturk. Tanken är att betala människor för att generera det Gabriel Skantze kallar ”lämplig dialogdata”.

– Vi ska använda oss av ”crowdworkers” för att med inte så mycket pengar samla in stora mängder träningsdata till maskininlärning.

– Då kan vi ge de här personerna instruktioner. Vi tar inte bara vilka konversationer som helst utan skräddarsyr dem så att de ska bli intressanta. Vi kommer att ha många filter och sätt för dem att kategorisera för att slippa få responser av typen ”jag förstår inte”.

Försmak om intresset

När vi talas vid har Gabriel Skantze just kommit hem från Human Robot Interaction i Chicago, en konferens som de senaste åren blivit alltmer välbesökt, i takt med framstegen på området. Det han demonstrerade där kan ge en föraning om att röst – hur stor tekniken nu än kan tänkas bli – bara är en försmak om vad som komma skall.

– Där pratade jag om hur vi kan använda förstärkt eller mixad verklighet för att experimentera med människa robot-interaktion. Tanken är att sätta på sig ett headset som till exempel Microsofts Hololens som gör att man ser en virtuell robot i rummet. Då kan man på ett friare sätt experimentera med hur roboten ser ut, jämfört med om man har en fysisk. Vad händer om roboten är stor eller liten? Påverkar det hur nära folk ställer sig för att interagera?

Läs mer: Amazon önskar sig svenska röstbolag

– Vi skalade upp barnroboten Pepper till vuxen storlek och märkte att folk höll ett längre avstånd till den. När man går bortom röst kan man använda hela den visuella kanalen. Bara genom att titta på någon kan jag hantera vem det är jag ska prata med. Talet är fortfarande centralt, men alla de andra modaliteterna som vi kallar dem är också relevanta.

Kommentarer

Välkommen att säga din mening på Ny Teknik.

Principen för våra regler är enkel: visa respekt för de personer vi skriver om och andra läsare som kommenterar artiklarna. Alla kommentarer modereras efter publiceringen av Ny Teknik eller av oss anlitad personal.

  Kommentarer