Innovation
Ny tung ai-milstolpe för Deepmind: bäst på spelet Starcraft
Först spöade de världsmästaren i det svåra brädspelet Go. Nu har de bemästrat det ännu svårare spelet Starcraft II. Och Deepmind tror att deras nya ai kan lösa problem i den verkliga världen.
Spelet Starcraft II har beskrivits som schack utan betänketid, där spelaren dessutom inte kan se hela brädet. Det tillhör genren realtidsstrategi och är känt som ett av de mest populära e-sportspelen någonsin. För att nå Grandmaster-nivå – alltså den yttersta världseliten – krävs att man mer eller mindre ägnar hela sitt liv åt att träna upp sina förmågor.
Spelets oerhörda komplexitet har gjort det till en populär utmaning för forskare inom artificiell intelligens.
Och nu kan en ai – som går under namnet Alphastar – för första gången titulera sig Grandmaster. Faktum är att den presterar bättre än 99,8 procent av allt mänskligt motstånd. Föga förvånande är det brittiska och Alphabet-ägda företaget Deepmind, kända för den ai som för tre år sedan förödmjukade Go-världsmästaren Lee Sedol, som nått milstolpen. Resultatet har publicerats i tidskriften Nature.
– Historiska framsteg inom artificiell intelligens har skett via spel, säger Deepmind-forskaren David Silver. Han fortsätter:
– Ända sedan datorer knäckte brädspelet Go, schack och poker har Starcraft II ansetts vara nästa stora utmaning. Spelets komplexitet är mycket större än schack eftersom spelaren kontrollerar hundratals enheter. Det är mer komplicerat än Go, eftersom det för varje drag finns 10 upphöjt till 26 (en etta följd av 26 nollor) möjliga val. Spelare har mindre information om sina motståndare än i poker.
Tidigare försök att tämja Starcraft II har gått ut på att handskriva delar av ai-systemet, att reducera spelets svårighetsgrad, eller att ge systemet övermänskliga förmågor. Deepmind redovisade framsteg med Alphastar tidigare i år, men vid det tillfället kunde företagets ai till skillnad från mänskliga spelare se hela spelplanen. Den här gången spelade Alphastar mot mänskligt motstånd på den officiella servern Battle.net utan att fuska, och visade sig överträffa alla tidigare resultat.
Kan hjälpa självkörande bilar
För att lyckas med allt detta använder Deepmind en hel bukett maskininlärningstekniker, som djupa neurala nätverk, förstärkningsinlärning (reinforcement learning), multiagentinlärning och imitationsinlärning. Poängen är dock att metoderna i det här fallet har generella egenskaper: de kan potentiellt sett användas för att lösa problem på andra områden. Deepmind nämner bland annat digitala assistenter, självkörande bilar och robotik.
– Jag ser fram emot att börja utforska sätt där vi kan applicera de här teknikerna till utmaningar i verkliga världen, som till exempel att göra ai-system mer robusta, säger Deepminds Oriol Vinyals, som lett arbetet med Alphastar.
I Starcraft II, som utspelar sig i en science fiction-värld, kan spelaren välja att styra en av tre raser: Protoss, Zerg eller Terran, som har olika styrkor och svagheter. Det går att se spelet som en mer avancerad variant av sten-sax-påse (tänk Protoss-Zerg-Terran), och det gamla handspelets upplägg har historiskt inneburit en utmaning för ai-agenter.
Förstärkningsinlärning går enkelt uttryckt ut på att en ai-agent på egen hand lär sig att uppnå ett mål så effektivt som möjligt, och ett sätt att göra det är att låta ai-agenten spela mot sig själv. Men i sten-sax-påse stöter den här självspelande metoden på problem. Som Deepmind skriver: ”den mest framträdande nackdelen är glömska. En agent som spelar mot sig själv kanske blir bättre och bättre, men den kanske också glömmer hur den ska vinna mot en tidigare version av sig själv. Glömska kan skapa en cykel där agenten 'jagar sin egen svans'. I ett spel som sten-sax-påse så kan en agent för tillfället välja sten framför andra val. Allt medan självspelandet fortgår kan en ny agent byta till papper, eftersom papper slår sten. Senare byter den till sax och sedan sten igen”.
Skapade en ai-liga
Ett sätt att angripa problematiken är att låta agenten spela mot en mix av alla tidigare strategier, men det gav inte riktigt resultaten Deepmind hoppats på. Istället skapade företaget en sorts ”liga”, där en hel hoper agenter tog sig an spelet på olika sätt. Huvudagentens mål var att maximera sin chans att vinna, medan andra agenters uppgift gick ut på att hitta fel och brister hos huvudagenten. Dessa ”exploaterande” agenter tvingade huvudagenten att upptäcka och utveckla bättre och mer långsiktigt hållbara strategier. Samtidigt byttes huvudagenten undan för undan ut mot en nyare version, och den nyare versionen fick träna på att möta alla tidigare huvudagenter.
”Den viktigaste insikten som ligan ger är att det är inte tillräckligt att bara spela för att vinna. Istället måste man ha huvudagenter vars mål är att vinna mot alla, men också exploaterande agenter som 'tar en för laget' genom att fokusera på att hjälpa huvudagenten att bli starkare, snarare än att bara maximera sina egna chanser att vinna”, skriver Deepmind.
Ett annat problem en artificiell intelligens måste ta itu med i Starcraft II är att ”lösningsrymden” är så enorm. Med så många möjliga val per drag var Deepmind tvungna att använda imitationsinlärning där Alphastar – för att slippa lära sig allt från grunden – fick studera nästan en miljon repriser av matcher där två mänskliga toppspelare gör upp. Därtill användes en metod som kallas off-policy, där agenten kan uppdatera sin strategi utifrån tidigare använda strategier. Off-policy är ett välkänt begrepp i ai-kretsar, men Deepmind säger sig ha en ny algoritm för ändamålet.
Till skillnad från tidigare presterar Alphastar nu lika bra oavsett vilken ras den spelar som, eller mot. Mänskliga spelare tenderar att specialisera sig på en av raserna.
– Starcraft har varit en av de stora utmaningarna för ai-forskare i över 15 år, så det är otroligt spännande att se det här arbetet bli erkänt av Nature. Dessa imponerande resultat markerar ett viktigt steg på vägen i vårt uppdrag att skapa intelligenta system som kommer att påskynda vetenskapliga upptäckter, säger Deepminds vd, Demis Hassabis.