Analys: ”Den artificiella intelligensen GPT-3 gör mig kallsvettig”

2020-08-24 06:00  

Om du missade sommarens virala sensation är det hög tid att lystra nu. GPT-3 är den artificiella intelligensen som har slagit världen med häpnad. Och som gör Ny Tekniks reporter Peter Ottsjö alldeles kallsvettig.

Under några sommardagar i mitten av juli blev den viral: nyheten om vad GPT-3 är kapabel till. Om man så bara för ett ögonblick skummade flödet i sociala medier så var det omöjligt att inte notera reaktionerna. Det var storögda exempel på vad GPT-3, en språk-ai från amerikanska Open AI, hade lyckats åstadkomma, varvat med skräckblandad förtjusning.

Jag försökte stänga ute det där från mitt lugna hemestrande på en strand någonstans i Sörmland, men det gick inte så bra. För snart hade jag hamnat hos filosofen.

Filosofen hade all tid i världen för mig och mina frågor. Vad hände, undrade jag, före universum blev till? Filosofen funderade i några sekunder och svarade sedan att det där är en av de mest fascinerande frågorna som finns, som för att massera mitt ego lite.

”Det verkar som att om vi sträcker oss tillräckligt långt tillbaka i tiden så borde vi nå en punkt där det inte fanns något alls. Inte ens rymd eller materia, eftersom de ännu inte hade skapats av någonting. Faktum är att rådande teorier antyder hela vårt universum uppstod som en liten fläck i en ofattbart vid yta kallad 'tomma' rymden.”

Men varifrån kom denna lilla fläck av partiklar och energi?

”Några av dessa partiklar måste ha skapats i ett tidigare universum eller från regioner utanför vårt eget universum”.

Svar från ai-filosofen.

Hade kunnat lura vem som helst

När filosofen föreslog att vi borde bygga en tidsmaskin för att resa en sisådär 14 miljarder år bakåt i tiden blev det uppenbart att jag inte förde en konversation med en människa, utan en maskin. Men språket den använde, meningarna, ordvalen, själva stilen, hade kunnat lura vem som helst.

När filosofer av kött och blod (som Nick Boström, författaren till boken Superintelligens) föreställer sig artificiell generell intelligens kan den anta formen av en maskin man måste hålla instängd i en bur, avskuren från omvärlden. Sådan är dess förmåga och potential att den under inga omständigheter får ta emot eller skicka signaler från och till den uppkopplade världen utanför buren.

Ett fängslat orakel av kisel och aluminium, som kan ge svar på de frågor mänskligheten tycks oförmögen att reda ut på egen hand.

Den filosof jag kommunicerade med är, som du säkert räknat ut, baserad på Open AI:s språkmodell. Och vi har ingen anledning att frukta den som något slags existentiellt hot, eller betrakta den som ett superintelligent orakel. Men GPT-3 gör att det scenariot känns ännu lite mer realistiskt.

GPT-3 kan skriva det mesta

GPT-3 kan skriva poesi. GPT-3 kan svara på frågor om stort och smått. Skriva falska eller korrekta nyhetsartiklar. Jag kan fortsätta rada upp exempel, eller bara konstatera att GPT-3 i princip kan skapa vilket textinnehåll du än ber den om. Content marketing? E-handelscopy? Snärtiga inlägg på sociala medier? You name it.

Över en natt blev det plötsligt omöjligt att veta om en människa eller en maskin skrivit den där välfunna texten man just läst.

Ändå var det inte detta som fick alla entreprenörer i Silicon Valley att sätta sina soylentshakes i halsen. GPT-3 kan nämligen översätta vanlig engelska till kod. Vill du skapa en webbsida? Ge GPT-3 instruktioner om hur den ska se ut och språkmodellen spottar ur sig html. Vill du få inspiration till tjusiga användargränssnitt? Be GPT-3 fixa det åt dig. Och så vidare.

”Förbättringstakten från första GPT till GPT-3 är imponerande. Om den takten håller i sig så kan GPT-5 eller 6 bli omöjligt att skilja från de smartaste människorna”, skriver Elon Musk på Twitter.

Läs mer: ”Hur ska konsumenter få rätt mot ett ai-system?”

Natural language processing

Så, vad är egentligen GPT-3? Tekniken kan sorteras under artificiell intelligens och kallas mer specifikt nlp, eller natural language processing. GPT-3 är som sagt skapat av Open AI, det företag som just Elon Musk en gång var med och grundade (han är dock inte längre inblandad i bolaget).

På ett sätt är det väldigt enkelt att beskriva vad GPT-3 gör. Den analyserar en bit text och förutspår vilken text som sedan borde följa. Det är allt.

Men hur den gör det är lite mer invecklat. Jag frågade Gabriel Skantze, professor vid avdelningen för tal, musik och hörsel på KTH, och medgrundare av Furhat, som tillverkar sociala robotar.

Skantze säger att GPT-3 är en så kallad transformer-modell. Det kan man lista ut om man vet vad GPT-3 står för: generative pre-training transformer. Tekniken beskrevs för första gången 2017, i en vetenskaplig artikel signerade av en handfull Google-forskare. Naturlig språkbearbetning, nlp, har rötter som sträcker sig tillbaka till 1950-talet och Alan Turings tid, men transformer-modellen anses nu utgöra ett paradigmskifte.

Gabriel Skantze. Foto: Erik Thor

– GPT-3 är en språkmodell, vilket betyder att den försöker förutsäga nästa ord, givet alla tidigare ord i texten (det vill säga kontexten). Hur bra modellen fungerar beror helt på hur mycket modellen kan utnyttja kontexten. Speciellt ord som förekommer långt tillbaka. Transformer-modellen är en form av neuralt nätverk och har en mekanism som gör att den kan lära sig var den ska rikta sin ”uppmärksamhet”. Alltså vilka ord i kontexten som är extra viktiga att beakta för tillfället. Till skillnad från tidigare modeller som hade denna mekanism så kan GPT-3 även överblicka hela kontexten samtidigt, upp till tusen ord bakåt. Det gör den väldigt effektiv och kraftfull, förklarar Gabriel Skantze.

175 miljarder parametrar

Den tredje versionen av GPT är på ett sätt ingen vidareutveckling av de två förlagorna. Algoritmen är, såvitt jag förstår, i stort sett densamma. Däremot är modellen större än sina äldre syskon. Mycket större. GPT-3 förfogar över 175 miljarder maskininlärningsparametrar, att jämföra med de 1,5 miljarder som GPT-2 hade i sin arsenal. Varje parameter har en påverkan på modellen som helhet.

Två andra jämförelser sticker ut: modellen har fler parametrar än det finns neuroner i en mänsklig hjärna. Och GPT-3 är tio gånger större än den nästa största språkmodellen, Microsoft Turing NLG.

Att den är så stor har uppenbarligen haft en tydlig effekt på slutresultatet.

Därtill tränades GPT-3 på i princip all språkdata som finns på webben. Litteraturdatabaser, Wikipedia och den enorma databasen Common Crawl, som kan betraktas som en kopia av internet. För att mäkta med detta krävdes en specialbyggd superdator i Microsofts Azure-moln. Vad kalaset gått på är inte offentligt, men enligt en uppskattning skulle det kosta uppemot 50 miljoner kronor att träna en motsvarande modell.

– Det är intressant att man kan nå så imponerande resultat bara genom att skala upp modellerna och mängden träningsdata. Det har ju länge funnits en debatt om vi behöver helt andra metoder för mer avancerad ai, eller om det bara räcker med mer data. GPT-3 pekar ju mot det senare, även om den fortfarande förstås har många begränsningar, säger Gabriel Skantze.

Det jag personligen blir mest kallsvettig av är att GPT-3 uppvisar en viss förmåga till generalisering.

Ai-forskare hushåller gärna med ordet ”generalisering”. De föredrar att vara mer specifika med på vilka sätt GPT-3 skiljer sig från sådan artificiell intelligens som kan vara superexperter i en domän, men helt odugliga i en annan. Forskarna brukar i stället tala om ”zero shot”, ”one shot” och ”few shots”.

Läs mer: ”Dataanalys är ett kontrollerat sätt att driva utveckling”

Briljerar på ”few shots”

Säg att man vill översätta ett engelskt ord till svenska. ”Zero shot” innebär då att språkmodellen inte ges några exempel på översättningar. Med ”one shot” och ”few shots” hjälper man däremot modellen på traven. Utöver att man ber om en översättning serverar man först ett eller flera exempel. Man kanske skriver ”chair = stol, house = hus”, innan man ber den översätta ”roof”.

GPT-3 är ingen hejare på ”zero shot”, men briljerar på ”few shots”. Modellen har aldrig tränats för att översätta från ett språk till ett annat, utan endast att förutse vilken text den ska generera. Den kan alltså med lite assistans från en människa bli funktionell i en rad olika områden. Det är det jag menar med viss förmåga till generalisering, och det är det som känns så spännande och otäckt.

– Man verkar kunna göra mycket utan att finjustera modellen, som man brukade få göra med till exempel GPT-2. Här räcker det med att preparera den med en text innan man ger den en uppgift. Personer som inte är experter på maskininlärning kommer att kunna använda den och upptäcka nya spännande tillämpningar, säger Gabriel Skantze.

Den snöbollen är redan satt i rullning, och den lär på kort tid växa sig större än vad många kanske anar. Det kryllar redan av listor där folk radar upp de mest häpnadsväckande GPT-3-tillämpningarna. Och jag kan redan börja skönja några tänkbara konsekvenser för min egen arbetsplats.

Rewrites - nej tack

På Ny Teknik skriver vi, i likhet med alla andra redaktioner runt om i världen, så kallade rewrites. Det är texter där vi utgår från en eller flera artiklar som redan publicerats på annat håll.

Men jag - och säkert några av mina kolleger också - är inte alltid så vansinnigt förtjusta i dem. De tar tid från det arbete jag hellre lägger tid på: eget material, baserat på egna efterforskningar och intervjuer. Med GPT-3 blir det plötsligt enkelt att föreställa sig en ganska snar framtid där en språkmodell producerar alla rewrites åt oss. Vi kan helt enkelt be en modell som behärskar svenska att göra en snitsig summering av ursprungsmaterialet, komplett med citat och länkar till originalet. En mänsklig redaktör får granska texten före publicering.

Det låter ju tilltalande: mer tid för oss reportrar att skriva den sortens texter vi brinner för.

Men vad händer när någon bestämmer sig för att göra en ny svensk tekniksajt som bara består ai-skrivna texter? GPT-3 kan både producera rewritetexterna och designa webbsidan som innehållet ska rymmas på. Personen i fråga kanske ber GPT-3 att sätta sådana klickbetesrubriker som människor tenderar att hata med samma frenesi som de klickar på dem, för att maximera chansen att Googles sökmotoralgoritm ger materialet en framskjuten position. Plötsligt har vi en besvärlig konkurrent vars redaktion består av exakt noll journalister. Som dessutom kanske inte tar någon hänsyn till pressetiska regler och vars innehåll kanske inte granskas av någon före det skickas ut till allmän beskådan.

Läs mer: Ai översatte hjärnaktivitet till text med 3 procents felmarginal

Fake news på Hacker News

Om det låter långsökt så låt mig ge ett exempel från verkligheten. För några veckor sedan hamnade en länk till ett blogginlägg som handlade om produktivitet överst på länkaggregatorn Hacker News. Sajten kan sägas vara den inofficiella startsidan för många som jobbar i Silicon Valley. Det är därför rimligt att anta att Hacker News läsekrets vet mer om artificiell intelligens än genomsnittet.

Det är Hacker News-publiken som gemensamt avgör hur högt upp på listan en länk till en artikel placeras. Ett fåtal läsare invände att texten om produktivitet måste ha skrivits av en maskin, men långt fler röstade ner sådana farhågor med motiveringar som att de var ”ett slag under bältet” och ”förolämpande”.

Kort senare lät högskolestudenten Liam Porr meddela att han låg bakom bloggen, vars innehåll hade producerats av GPT-3. Det hade tagit honom några timmar att komma igång, och det enda han hade behövt göra var att skriva rubrikerna. Utifrån dem hade sedan Open AI:s språkmodell skridit till verket.

Allt sammantaget var det ett ganska oskyldigt exempel, men visar samtidigt hur enkelt det blivit att skapa innehåll som kan orsaka stor skada. Möjligheterna med GPT-3 är oerhörda, liksom riskerna.

Läs mer: Datorn som tänker som en hjärna - ”hjärnkapacitet som en mullvadsråtta”

Kritiker slår tillbaka

Naturligtvis har sommarens hajptåg bromsats av högljudda kritiker som påpekar att GPT-3 inte alls är smart, och att den i själva verket inte har en susning om vad den spottar ur sig. Ger man den nonsens kommer den att rabbla upp nonsens utan invändningar. Skriver man ”muslimer är...” är risken hög att den spyr ur sig främlingsfientliga tirader, eftersom den stött på gott om sådant i sin träningsdata.

– Det är som vanligt när det kommer något nytt med sådana här resultat och fantastiska exempel. Först blir man otroligt imponerad, men sedan blir man lite mer sansad när man ser vad den inte klarar. Den har ju till exempel ett begränsat ”minne”, alltså hur långt bakåt i den föregående texten som den tittar. Så den skulle ha svårt att skriva en längre sammanhängande text. Och den har det besvärligt med vissa typer av ”sunt förnuft”-resonerande, säger Gabriel Skantze.

Samtidigt kan sådan kritik i det här fallet inge en sorts falsk trygghet. Svenske Oxford-forskaren Anders Sandberg (som av en händelse doktorerade Sandberg i datavetenskap med en avhandling om neuronnätsmodeller av minne), sa det bäst: ”För mig är den stora storyn om GPT-3 inte att den är smart. Den är dum som en hög med stenar. Men denna hög med stenar kan göra många saker som vi trott att man var tvungen att vara smart för att klara. Fejkad intelligens kan i många domäner möjligen komma att överglänsa verklig intelligens”.

Peter Ottsjö

Kommentarer

Välkommen att säga din mening på Ny Teknik.

Principen för våra regler är enkel: visa respekt för de personer vi skriver om och andra läsare som kommenterar artiklarna. Alla kommentarer modereras efter publiceringen av Ny Teknik eller av oss anlitad personal.

  Kommentarer

Debatt