Digitalisering

AI-skapade bilder tar nätet med storm: ”Djupt imponerande”

Snabbare, större och bättre. Open AI:s nya verktyg för AI-skapade bilder imponerar stort på forskarvärlden och utvecklare. ”Systemet är fantastiskt häftigt”, säger Christian Landgren på digitaliseringsbyrån Iteam.

Publicerad

"En tvättbjörnsastronaut, med reflektioner från kosmos på hans glashjälm, drömmer om stjärnorna". Det var textinstruktionen som matades in i ai-verktyget Dall-E 2. Resultatet, som ni kan se nedan i tweet, är slående.

Snabb ai-utveckling

På senare år har artificiell intelligens blivit allt bättre på att tolka både bilder och texter. Detta kombineras i tidigare nämnda verktyg, Dall-E 2, som utvecklats av forskningsbolaget Open AI, grundat 2015 av bland annat Teslas vd Elon Musk och tech-entreprenören Sam Altman.

Dall-E, vars namn är en kombination av konstnären Salvador Dali och den gulliga roboten Wall-E, är i grund och botten ett ai-system som kan skapa realistiska bilder och illustrationer utifrån en textbeskrivning i naturligt språk. Användaren skriver in en beskrivning i löpande text, och sedan spottar systemet ut en tolkning av den beskrivningen i form av en illustration eller en fotoliknande bild.

Systemet imponerar djupt

Den första versionen av Dall-E såg dagens ljus i januari 2021. Nu har Open AI visat upp en ny version – som har fått forskare och teknikintresserade världen över att tappa hakan.  Det nya verktyget, som än så länge bara är tillgängligt för medarbetare hos Open AI, är bland annat snabbare än föregångaren och kan producera bilder i högre upplösning.

Dessutom har systemet ett gäng nya funktioner, som exempelvis gör det möjligt att i efterhand lägga till eller byta ut objekt i de ai-genererade bilderna med ett resultat som känns naturligt för oss människor.

– Jag är djupt imponerad, framför allt för att Open AI har lyckats förbättra systemet i en mycket snabbare takt än vad jag, och många andra, trodde var möjligt. Det är något vi får börjar vänja oss vid när det gäller ai-utvecklingen – precis när man tror sig ha en kvalificerad bild av hur långt vi har kommit, dyker plötsligt ett sådant här system upp och ritar om kartan helt, säger Christian Landgren, grundare av digitaliseringsbyrån Iteam, som står på väntelistan till Dalle-2, men har erfarenhet av dess föregångaren, samt andra liknande AI-system.

Tränats på 2 200 datorer

Open AI har använt djupinlärning och artificiella nätverk för att lära ai-systemet i Dall-E 2 att förstå och tolka sambanden mellan naturligt språk och bilder.

En generell utmaning för den här typen av ai-system är att förstå vilken relation som olika objekt i en bild har till varandra. Ett exempel: Du skriver in orden ”schimpans”, ”on” och ”a skatebord” i gränssnittet. Hur ska systemet förstå att vi förväntar oss en bild på en schimpans som åker skateboard, och inte tvärtom – en skateboard ovanpå en schimpans?

Dall-E 2 har tränats på 2 200 datorer, med den absolut senaste hårdvaran, ihopkopplade i ett kluster för att bli bättre på just ovan nämnda uppgiften. Även om systemet, och datasetten som det tränats med, fortfarande har vissa svagheter enligt den klassiska ”skit-in-skit-ut”-principen, har Dall-E 2 blivit avsevärt mycket bättre på att skapa bilder som vi människor kan uppleva som vackra eller originella, enligt Christian Landgren.

– Det handlar om subtila budskap eller detaljer som tidigare bara har återfunnits i konst skapad av människor, detaljer som reflektioner av solljus, relationen mellan färger och objekt, känslor i ansiktsuttryck, blicken i ögonen. Tänk när systemet kan producera bilder i högre upplösning, som HD eller 8K. Då tror jag att vi snart kommer att se allt fler exempel på hur företag använder ai-genererat material för att illustrera texter eller ta fram fotografier till intranät och annat.

"Öppna data oerhört viktigt"

Under intervjun med Ny Teknik inskärper Christian Landgren betydelsen av den snabba utveckling inom artificiell intelligens som sker just nu.

– Många trodde att det skulle ta avsevärt mycket längre tid innan vi började se en kreativ förmåga på riktigt hos ai-systemen. Jag tycker att vi ser det nu, sedan finns så klart andra som inte håller med om det. En intressant diskussion som jag verkligen ser fram emot nu handlar om hur mänskliga konstnärer kommer att kunna använda den här typen av system för att skapa ny typ av konst i samarbete med ai.

Vad kommer efter ai-genererade bilder?

– Nästa konstform kommer att bli ai-skapad musik. Det finns redan system som gör detta, men när dessa blir tillräckligt bra, kommer vi att se en otroligt spännande utveckling. Tänk själv om du skulle kunna låta ett ai-system skapa den perfekta låten genom att kombinera de bästa låtarna och artisterna du vet. Det är otroligt spännande.

– Ett annat område där ai-skapad musik skulle kunna bidra med mycket är datorspel, där algoritmer genererar musik som är dynamiskt anpassad efter vad som händer i spelen – tänk dig lugna, vackra stycken om du går runt på en virtuell strand, eller mer bombastisk musik under en strid. En del kanske blir deprimerade av den här utvecklingen, men jag tror också att många skulle se att det skapar en fantastisk utveckling av musik, foto och annan konst, fortsätter Christian Landgren.

Dall-E 2 tränats på öppna dataset.  Vad betyder öppna data och dataset för den fortsatta ai-utvecklingen?

– Det här är vår tids stora fråga. Myndigheter, företag och organisationer sitter på stora mängder data. När man ges tillgång till öppna dataset, då vi kan lösa komplexa problem som är omöjliga att hantera för enskild organisation. Hållbarhetsfrågor är ett bra exempel: Där tränar vi redan idag ai-system för att föreslå optimala transporter för att minska utsläpp, till exempel i det svenska ideella forskningsprojektet Predictive Movement.