GPT-3 på svenska – de bygger en ”superintelligens” som pratar svenska

2022-06-09 06:00  

Språkmodellen GPT-3 slog världen med häpnad. Nu utvecklas en ny version, en enorm ai-modell – som talar svenska. ”Den kan lösa uppgifter den inte är tränad för”, säger Magnus Sahlgren på AI Sweden.

När GPT-3 demonstrerades sommaren 2020 orsakade det en svallvåg på nätet.

Forskningsbolaget Open AI, där bland annat Elon Musk och Sam Altman är medgrundare, visade upp en  ai-modell som kunde ta enkla kommandon på vanlig engelska och generera flytande, sammanhängande text.

GPT-3 är helt enkelt mycket bättre på att förstå mänskligt språk och ordens kontext än någon annan ai-modell som tidigare har demonstrerats.   

Du kan be den skriva en artikel om ett ämne du är intresserad av, ge den en några inledande rader och den kan utifrån det generera en dikt. Snillen skapade snabbt generatorer som lät dig skriva in kommandon i klartext och låta GPT-3 skriva om dem i kod. Som den här hemsidegeneratorn. 

– GPT-3 slog ner som en bomb. När man trodde att språkmodellerna inte kunde bli större blev de det. Där någonstans började vi inse att det här kan vara något helt disruptivt, säger Magnus Sahlgren på AI Sweden. 

Läs mer: Intuicells system – ”Så nära hjärnan man kan komma”

Ska utveckla en svenskspråkig GPT-3

Han leder en forskargrupp där AI Sweden ihop med Rise och ai-forskare vid svenska universitet försöker bygga en svenskspråkig version av GPT-3 som de kallar för GPT-SW3. Den bygger på samma bakomliggande teknik som GPT-3, en förkortning som står för generative pre-trained transformer.  

– Det är ett slags arkitektur på neurala nätverk som fått stor genomslagskraft eftersom den är väldigt bra på att lära sig olika typer av data, säger Ariel Ekgren, en av forskarna på AI Sweden som ingår i projektet.  

– Modellen uppvisar väldigt spännande egenskaper. Den har en generalitet och det vi kallar för zero shot-förmåga, den kan lösa uppgifter den inte är tränad för. Det är nästan häpnadsväckande, säger Magnus Sahlgren. 

Nationellt superdatorcentrum. Foto: THOR BALKHED/LIU

De svenska forskarna har redan byggt en första, mindre GPT-modell som har 3,5 miljarder parametrar. Det bleknar visserligen jämfört med GPT-3, men det är ungefär dubbelt upp mot föregångaren GPT-2. 

– Vår lilla modell är ett otroligt bra proof-of-concept, jag har aldrig sett så bra textgenerering på svenska. Den skriver bra, sammanhängande texter, men när man skalar upp den blir den mycket bättre på att följa mönster, säger Ariel Ekgren.  

Därför är planen att under sensommaren och hösten träna upp flera, större modeller av GPT-SW3. Den största ska, likt GPT-3, ha runt 175 miljarder parametrar och tränas på cirka en terabyte textdata, vilket motsvarar flera hundra miljoner A4-sidor. Forskargruppen sliter för fullt med att samla in texter från bland annat offentlig sektor och olika källor på nätet.  

Modellerna ska sedan tränas på superdatorn Berzelius på Nationellt Superdatorcentrum i Linköping. Ambitionen är att ha färdiga modeller som kan börja utvärderas under hösten 2022. 

Läs mer: AI-skapade bilder tar nätet med storm: ”Djupt imponerande”

Alla ska ha möjlighet att använda ai-modellen

– En tanke är att det kan vara ett skrivstöd för publikt riktade texter, för att översätta texter till mer lättläst språk eller för att skriva underlag till politiska handlingar. Sedan får en människa kontrollera resultatet, säger Ariel Ekgren. 

Om GPT-SWE fungerar som tänkt vill AI Sweden ge offentlig sektor, forskare och det privata näringslivet tillgång till modellen.  

– Internationellt sett drivs den här typen av utveckling av kommersiella aktörer som tillhandahåller ett api till en kostnad. Vi har en ambition att försöka göra det på ett mer demokratiskt sätt. Vi vill tillhandahålla modellen till alla sektorer i samhället, säger Magnus Sahlgren. 

Nationellt superdatorcentrum. Foto: THOR BALKHED/LIU

För att kunna ge så många som möjligt åtkomst till GPT-SWE undersöker AI Sweden också möjligheterna till att tillhandahålla en driftsmiljö där modellen körs. Även om det är upplärningsfasen som är den mest beräkningsintensiva, behöver den här typen av avancerad språkmodell också kraftfulla datorer för att kunna tillämpas.  

– Det känns inte realistiskt att enskilda aktörer kommer att köpa egna, kraftfulla driftmiljöer. Så vi funderar på om vi kan tillhandahålla det, säger Magnus Sahlgren. 

– Det kanske låter storsvulstigt, men vi tänker oss det här som en nationell infrastruktur, på samma sätt som vägnätet fast för ai. 

Simon Campanello

Kommentarer

Välkommen att säga din mening på Ny Teknik.

Principen för våra regler är enkel: visa respekt för de personer vi skriver om och andra läsare som kommenterar artiklarna. Alla kommentarer modereras efter publiceringen av Ny Teknik eller av oss anlitad personal.

  Kommentarer

Debatt