Svensk ansiktsteknik lockar internationella storbolag

2019-08-22 06:00  

Första tio åren hände ingenting. Men sedan ville alla ha ansiktsteknik. Och då var Visage från Linköping redo att leverera.

Ett intetsägande trevåningshus i tegel. En parkering utanför. Det hade lika gärna kunnat vara ett äldreboende eller en vårdcentral, men det här tillhör Science Park Mjärdevi i Linköping. Och innanför väggarna sitter ett bolag som av Deloitte för andra gången utsetts till ett av de snabbast växande teknikföretagen i Sverige. Bland kunderna finns Disney, BMW, Sony, Coca-Cola, Canon, Philips, Deutsche Telekom, L'Oréal och en hel hoper andra världsberömda varumärken.

Jörgen Ahlberg, medgrundare och forskningschef på Visage Technologies, kan fortfarande ha svårt att begripa hur det gick till.

– Det kommer som en överraskning nästan varje dag.

Visage säljer programvara för att följa, analysera och känna igen ansikten. Det senare, ansiktsigenkänning, är en form av biometrisk identifiering som på senare år har blivit allt mer eftertraktad, bland både företag och myndigheter. Men tekniken är högst kontroversiell och föremål för intensiv debatt.

Den kan användas – och används redan på vissa platser – för massövervakning av människor. Och felaktigt konstruerad kan tekniken spä på fördomar om redan utsatta samhällsgrupper, med högst konkreta risker för den som drabbas.

2002, när Jörgen Ahlberg tillsammans med bland andra Robert Forchheimer, en professor vid Linköpings universitet, grundade Visage Technologies kunde han naturligtvis inte förutse något av det här.

”Vi var naiva tekniknördar som gjorde kul programvaror”

Hans dröm var att förverkliga utopin om videosamtal, genom att delvis ersätta rörlig bild med realtidsanimeringar av dem som deltog i samtalet. Man kan se det ungefär som en urtida variant av Facetime eller Snapchat med ansiktsmasker. Fast poängen var inte att lägga på lustiga figurer.

– På den tiden var inte bandbredderna så stora så det här med att skicka video var lite jobbigt. Jag var doktorand på Linköpings universitet och höll på med bildkodning, som handlade om att komprimera bilder. Målet var att kunna följa och animera ett ansikte i stället för att skicka hela videobilden. Det hade börjat komma webbkameror och mobiltelefoner med kameror. Men ingen hade någon tanke på att alla snart skulle ha fiber i hemmet...med kompression fick man ner det såpass att det gick att köra över modem.

Ahlberg och hans grundare kallade Visage för ”the face animation company”. Ansiktsanimeringar, tänkte de, skulle kunna bli hur stort som helst. Vem hade inte behov av videosamtal med animerade versioner av sig själva? Nästan ingen alls, skulle det visa sig.

– Vi hade det som hobby, det var inget vi kunde försörja oss på. Vi fick någon kund emellanåt, men det lossnade inte riktigt. Vi var helt enkelt otroligt naiva, tekniknördar som gjorde lite kul programvaror, lade upp på webben och trodde att en massa folk skulle köpa dem.

Det stod mer eller mindre still under tio år. Ibland fanns tankar på att bara lägga ned verksamheten, grundarna hade trots allt sina akademiska karriärer vid sidan av bolaget. Jörgen Ahlberg jobbade dessutom på FOI, Totalförsvarets forskningsinstitut, med ”målföljning, hyperspektral analys, hitta fiender i skogen och så där”.

Sen kom vändningen

Men så, några år in på tiotalet, kom vändningen. Det visade sig att Visage hade en produkt marknaden ville ha, det var bara det att Ahlberg och hans kolleger aldrig försökt att kränga den.

– Vi hade hunnit bygga upp ett programvarubibliotek och ett av programmen var ansiktsanalys, för att göra tracking. Det var inget vi sålde, utan något vi använde för att göra det vi tyckte var våra huvudprodukter. Men vi började få förfrågningar från universitet som ville ha det till en massa olika saker.

Kan du ge ett exempel?

– Det kunde vara psykologer som ville spela in ansiktsuttryck och kunna följa patientens ansiktsrörelser.

En milstolpe var när Disney hörde av sig. Nöjesparken Disneyland Paris hade en ny åkattraktion baserad på filmen Råttatouille. En reklamapp till mobiltelefoner byggdes för att locka besökare.

– Man kunde se sig själv som råtta och spela in små videor där man kunde förse råttan med hatt och glasögon.

Varför valde Disney just er?

– Det var ju några år sedan nu...om jag får gissa googlade någon på Disney ”face tracking” och kontaktade de få bolag som fanns för att kolla vad det kostade. Och så valde de oss.

Hur kändes det?

– Det var Disney! Det var jättekul! Sedan var inte det en av våra största affärer, rent ekonomiskt. Men en annan väldigt bra kund är (ett av Europas största telekombolag) Deutsche Telekom. De använder vår teknik för att lägga på ansiktsmasker i deras (meddelandeapp) Message plus. Vi utvecklade tillsammans under ett år och de är fortfarande en av våra kunder, säger Jörgen Ahlberg.

Kikar man på Visages bokslut från de senaste tio åren ser man omgående den dramatiska utvecklingen uppåt. Omsättning, 2008: 0 kronor. Omsättning, 2012: En halv miljon. Omsättning, 2014: 3,3 miljoner. Omsättning, 2017: nästan 22 miljoner. Företaget har aldrig tagit in något externt kapital, utan vuxit organiskt.

”Det blev en boom, vi kunde välja och vraka”

I dag har Visage 60 anställda, varav 55 sitter i den kroatiska huvudstaden Zagreb.

Varför Zagreb? Ett skäl är att en av grundarna, Igor Pandzic, kommer därifrån. Men av större betydelse är att Visages genombrott kom ungefär samtidigt som en ny renässans för artificiell intelligens. Djupa neurala nätverk, en särskild form av maskininlärning, hade vid det laget existerat ett tag. Men det var omkring 2012 som rätt förutsättningar – tillräckligt kraftfull och billig hårdvara, massiva dataset – gjorde algoritmerna mycket användbara för exempelvis mönsterigenkänning. Plötsligt skrek alla efter kompetens på det området.

– Det blev en boom. Vi hade en doktorand som fick in maskininlärningsbitarna, för oss hade det inte varit en grej innan. Det gjorde våra grejer mycket bättre, men det här med att rekrytera i Linköping blev plötsligt exceptionellt svårt. Det fanns redan en hel del företag och det ploppade upp en massa nya som behövde kompetens inom datorseende och maskininlärning. Då beslöt vi att expandera i Zagreb. Den första reaktionen från folk är att vi gjorde det för att det är lägre löner därnere. Det är det i och för sig. Men där kunde vi välja och vraka och rekrytera ett stort gäng. Det hade vi haft väldigt svårt att göra här.

Läs mer: Löftet från svenska bolaget: ”anonym ansiktsigenkänning”

Visage hade börjat med ansiktsföljning men har under de senaste fem åren lagt till allt fler funktioner i det verktyg företaget säljer. Blickriktning och ansiktsuttryck. Uppskattning av kön och ålder och – inte minst – ansiktsigenkänning.

– När djupinlärningsboomen kom hade vi redan all infrastruktur på plats. Vi hade ansiktsdatabaser, annoteringar och programvara. Så vi satte en utvecklare på detta.

Ansiktsteknik är fortfarande i sin linda men de tänkbara tillämpningarna är redan fler än man orkar räkna till. BMW och Skoda är Visage-kunder och även om Jörgen Ahlberg är förtegen om hur just de fordonsbolagen begagnar sig av tekniken – Skoda tycks ha använt den i en reklamkampanj – är det inte svårt att se poängen med tracking och igenkänning av ansikten bakom ratten.

– Förarbeteenden är en het grej, det kommer att finnas i många bilar. Kanske framförallt bland yrkesförare, att ha koll så att de inte somnar. Det är något vi ser vid horisonten, något som är under uppbyggnad.

Visages trackingteknik letar efter avvikelser

Faktum är att Visage har påbörjat ett samarbete med australiensiska medicinteknikföretaget Optalert. Målet är att ta fram en programvara som är inspirerad av en vetenskaplig artikel som mynnade ut i begreppet JDS, Johns Drowsiness Scale. JDS visar att en trött människa lyfter ögonlocken långsammare mellan blinkningarna.

Det är avvikelser som Visages trackingteknik kan, så att säga, hålla ögonen på.

– Det klassiska sättet att mäta när en person är på väg att somna är hur stor del av tiden den har ögonen stängda. Men då är det redan för sent. Det du vill veta är när föraren börjar bli dåsig. Vi kan mäta hastigheten på ögonlocken och ge en tidig varning. Och om då lastbilstillverkaren ändå har en kamera som följer ansiktet finns det en massa andra funktioner den kan lägga till. Vem som kör, om det är flera i kupén.

Andra tillämpningar: värdering av reklamkampanjer där företaget mäter var testpersoner fäster blicken. Allsköns mobilspel som drar nytta av ansiktstracking. Skönhetsappar där stora kosmetikabolag låter användaren pröva olika typer av virtuellt smink. Även så kallad ”liveness detection”, där Visages programvara kan avgöra om det är en verklig människa framför kameran, eller om någon håller upp en bild eller video för att lura datorn.

– En annan kund använder det för att ge ergonomisk feedback. Det kommer en notis på datorskärmen om de sjunker ihop i stolen. Andra använder tekniken för att designa användargränssnitt i till exempel en cockpit. Var fäster användaren blicken, hur använder den instrumenten? Det kan hjälpa kunden under utvecklingen av gränssnittet.

Läs mer: Så vill polisen använda ansiktsigenkänning – ”Hoppas vara igång i höst”

Med tanke på alla användningsområden, och på det faktum att Visage erbjuder både tracking, analys och igenkänning, så lever bolaget ständigt med risken att förlora fokus, med att satsa på för många olika saker samtidigt. Men samtidigt har Visage en tumregel oavsett kund, tillämpning och teknik.

– Vår nisch har alltid varit att det ska vara liten och snabb programvara. Vi har haft konkurrenter som är bättre på att följa punkter i ansikten väldigt exakt. Men då rör det sig om postproduktion där det kan ta timmar att göra en sekvens medan vår ska vara i realtid. Vår ansiktsigenkänning ska vara så liten och snabb att den går att ha på en mobiltelefon.

Visual Sweden – projektet som fått mest uppmärksamhet

Jörgen Ahlberg tar det uppmärksammade svenska ögonspårningsföretaget Tobii som ett jämförande exempel.

– Tobii har en hårdvarulösning som är jättesnygg. De får jättebra eyetracking, mycket bättre än vi någonsin kommer att få. Men då måste man ha deras hårdvara. Med vår teknik kan man skicka ut det till vem som helst som har en kamera.

Det projekt som förmodligen gett Visage mest exponering i medier är det företaget genomförde tillsammans med NFC, Nationellt Forensiskt Centrum, och den Vinnova-finansierade satsningen Visual Sweden. Linköpings Universitet var också en deltagare i projektet.

Kunde man med ansiktsigenkänning spåra brottslingar i en folkmassa? Vilka legala och etiska aspekter måste tas i beaktande? Kan man använda körkortsregister för att träna en djupinlärningsmodell?

– Det mynnade aldrig ut i någon produkt, utan det blev en rapport. Den stora grejen var att vi som var inblandade fick mer förståelse.

Läs mer: Gymnasieskola får böta för ansiktsigenkänning – bröt mot GDPR

En av insikterna: det är inte så lätt att fånga bra ansiktsbilder från en övervakningskamera monterad i tak. Och utan bra ansiktsbilder, anser Ahlberg, spelar det ingen roll hur mycket beräkningskraft som finns att tillgå.

– Det måste till en någorlunda schysst bild på ett ansikte, annars fungerar inte ansiktsigenkänning. Det är så självklart att det blir löjligt, men folk tenderar att missa det ändå. Kameran sitter fem meter upp, personen har en keps på sig och man ser bara nedre delen av ansiktet. Det är kanske dålig belysning och rörelseoskärpa.

Samtidigt har det inte hindrat regimen i Kina från att massövervaka människor.
– Ja, men där ser man ju till att sätta kameror för just det ändamålet. Jag kan inte säga hur det är i Sverige om 30 år, men just nu vill ju polisen vara ”the good guys” och allt är så väl reglerat med gdpr.

Jörgen Ahlberg tycker att det finns större anledning att oroa sig för att gemene man får tillgång till tekniken. Där en enskild individ utrustad med ansiktsigenkänningsapp i mobilen kan spåra och identifiera personer.

– Då är det inte en förtryckarregim utan en slumpmässig snubbe på gatan som kanske bestämt sig för att han av ena eller andra skälet inte tycker om en person. Att bli utpekad, att hela tiden bli igenkänd på stan, det känns lite mer otäckt. Även om jag inte vet hur realistiskt det scenariot är.

Därtill har ansiktsigenkänningsteknik fått skarp kritik för att den är bra på att skilja på vita män, men har i vissa uppmärksammade fall buntat ihop människor som tillhör etniska minoriteter. Ta bara Amazons Rekognition, som fick för sig att afroamerikanska kongressledamöter var samma personer som fångats på så kallade ”mug shots”, bilder på misstänkta förbrytare.

Bekvämlighet framför integritet

– Men att artificiell intelligens känner igen vita män bäst, det påståendet måste man ta med en nypa salt. Neuronnät blir bra på det de tränas på. Har man en databas med medelålders vita män så är risken att ai:n tycker att tre olika personer från Kina ser likadana ut. Vi köpte en databas som vi senare insåg kom från ett amerikanskt fängelse. Då var det en överrepresentation av afroamerikaner och människor med latinamerikanskt ursprung. Så vår databas var inte bättre på att skilja på vita människor, det var tvärtom.

Trots alla risker tror Jörgen Ahlberg att människan, som den tenderar att göra, kommer att välja bekvämlighet framför integritet. Redan i dag använder många sina ansikten för att låsa upp telefonen eller för att genomföra en betalning i kassan. Man kan tänka sig att vi kommer att kunna gå på tåget, ta varor utan att stå i en kassakö och besöka evenemang med bara ansiktet som identifikation.

– Ja, det tror jag absolut. Ansiktsigenkänning går att göra på några meters avstånd och i ett flöde av folk. Så definitivt.

Så fungerar ansiktsigenkänning

Ansiktsigenkänning i stor skala blev möjligt tack vare den djupa maskininlärningens genombrott i början av det här årtiondet. Djup maskininlärning eller djupa neurala nätverk handlar om ett datorprogram som lär sig på egen hand. Att det kallas ”neuralt” eller ”neuronnät” kommer sig av att tekniken är inspirerad den mänskliga hjärnans egenskaper för att omvandla data till information. Det är en variant av det bredare begreppet maskininlärning, som i sin tur är en del av det vi kallar artificiell intelligens.

Med djup maskininlärning serveras en algoritm träningssdata och spottar ut ett resultat. Men på vägen mellan dessa två tolkar algoritmen signalerna – alltså träningsdata – i ett antal lager. För varje nytt lager ökar graden av abstraktion.

Säg att du vill bygga ett djupt neuralt nätverk som kan skilja olika ansikten åt eller som kan avgöra vilka ansikten som är identiska. Träningsdata bör då vara ett stort antal bilder på ansikten (ju större dataset, desto mer pricksäkert blir nätverket, åtminstone i teorin). Dels på olika ansikten, men också många bilder på samma ansikte. En dator ser naturligtvis inte ett ansikte på bilden, utan ett antal värden som representerar olika pixlar. Med pixlarna som underlag lär sig det djupa neurala nätverket hitta mönster. För varje lager som passeras i nätverket blir vissa mönster mer intressanta (starkare signal mellan ”neuronerna” i nätverket) medan andra nonchaleras (svagare signal); under träningen ändras det som ai-människor kallar ”vikterna” på de olika signalerna för att allt bättre producera det önskade resultatet.

Första, andra och hundrade gången algoritmen genomför den här proceduren brukar resultatet inte vara så bra, men så småningom kan nätverket uppnå imponerande resultat. På ett sätt kan man säga att nätverket lärt sig abstrahera och generalisera, från råa pixelvärden till klassificering av olika människors ansikten. Men det är kanske inte vad vi människor tänker på när vi använder de begreppen: det rör sig snarare om att nätverket klurat ut ett antal mätvärden som är unika för varje ansikte. Serveras det färdigtränade nätverket en ny bild på ett ansikte kan den matcha det ansiktets mätvärden mot ansikten på andra bilder. Genererar den ungefär samma värden för olika bilder är det sannolikt samma person på båda bilderna.

Det kallas djup maskininlärning eftersom en sådan modell kan använda flera – ibland hundratals – lager. Där finns också en symbolisk mening på så vis att vi människor inte riktigt kan begripa hur datorprogrammet gör för att hitta mönster. Den opererar så att säga djupt, under ytan.

Även om algoritmerna utvecklas och raffineras allt eftersom är det egentligen två andra orsaker som ligger bakom de djupa neurala nätverkens genombrott: tillgång till stora dataset och billig beräkningskraft, framförallt i form av grafikkort som tidigare mest var förknippat med datorspel.

Man kan också ha i åtanke att den ovan beskrivna metoden för klassificeringsändamål bara är en av många. Men den är vanligt förekommande.

Peter Ottsjö

Kommentarer

Välkommen att säga din mening på Ny Teknik.

Principen för våra regler är enkel: visa respekt för de personer vi skriver om och andra läsare som kommenterar artiklarna. Alla kommentarer modereras efter publiceringen av Ny Teknik eller av oss anlitad personal.

  Kommentarer

Debatt