”Jag häpnar över ai-nyheter – varje vecka”

2022-11-20 08:00  

De generativa ai-modellerna kan skapa både text och bild. Och eftersom text och bild är breda begrepp väntar runt hörnet en ny infrastruktur för att lösa gamla och nya problem.

Sökmotorn Elicit har förändrat hur jag letar efter vetenskapliga artiklar i min research. 

Den stora språkmodellen GPT-3 fick Ny Tekniks reporter Peter Ottsjö att bli kallsvettig sommaren 2020, berättade han i en analys full av förundran.

Genom att använda GPT-3 kapar Elicit sammanfattningar av de artiklar som matchar mina sökningar, gör sammanställningar av andra artiklar som citerar dem och föreslår dessutom angränsande frågeställningar. För mig har det här inneburit en båda snabbare och bättre researchfas. 

Just nu går det knappt en dag och definitivt inte en vecka utan att jag häpnar över nya tillämpningar av det som kallas generativa ai-modeller. Det här är teknik som tar emot data och skapar något nytt.

I Elicits fall är indata både min ursprungliga fråga och alla vetenskapliga artiklar som finns i databasen, och det som skapas är sammanfattningarna, citatsammanställningarna och förslagen på kompletterande frågor.

När Peter kände sig kallsvettig i augusti för två år sedan hade Open AI precis visat upp GPT-3. Men tekniken fanns fortfarande bara tillgänglig för en begränsad skara utvecklare. Sedan dess har möjligheterna med generativa ai-modeller successivt blivit ett verktyg för fler. I november förra året släpptes api:et, programmeringsgränssnittet, till GPT-3 fritt. 

Och parallellt med utvecklingen av språkmodellerna har Open AI också jobbat med bildskapande. För en dryg månad sedan blev api:et för Dall-E 2 fritt tillgängligt. Men då hade många utvecklare – och vanliga användare – redan spenderat en hel del tid med Stable Diffusion, en generativ ai-modell för bilder som Stability AI släppt som öppen källkod.

Många av de tidiga demonstrationerna av vad som går att göra med GPT-3 handlade antingen om långa texter som skapats från en kortare instruktion, det som i det här sammanhangen kallas för en prompt, eller dialoger mellan en mänsklig användare och ai-modellen.

Men mitt hörn av internet har den här hösten svämmat över av artiklar, blogginlägg, poddar, tweets och chattkonversationer om hur modellerna används för att lösa mer avgränsade och specifika uppgifter än så.

En kort film visar en implementation av GPT-3 i Google Sheets, och hur språkmodellen bland annat kan användas för att tolka adresser, kategorisera återkoppling från användare eller sammanfatta kundrecensioner.

Sammanfattningar är också ett av flera användningsområden i en text i den vetenskapliga tidskriften Nature som beskriver hur forskare använder språkmodeller, bland annat för att föreslå en tänkbar sammanfattning utifrån lösa anteckningar.

En specialversion av Open AI:s språkmodell heter Codex. Den är tränad på programkod och används för att generera ny kod utifrån en instruktion som uttrycks med mänskligt språk. Ett fascinerande exempel visar hur robotar styrs med vanlig engelska – och med invecklade instruktioner som följer olika typer av logiska resonemang.

En annan demonstration av Codex visar hur modellen successivt ”resonerar” för att komma fram till en lösning, och hur den också identiferar felen som den själv gör.

För utvecklare finns funktioner som de här tillgängliga som vardagsverktyg, bland annat i form av Github Copilot som erbjuder en rejäl genväg i kodandet. 

För alla som dagligen skriver ”vanlig” text är en ny våg av digitala bollplank att vänta, med Moonbeam och Lex som två just nu hajpade tjänster. Ordbehandlingsprogram har till största delen fortfarande mest varit förbättrade skrivmaskiner. 

Snart kan vi räkna med att få hjälp att komma vidare när skrivkrampen sätter in, när vi vill ändra tempus eller jobba med stilen, göra den lite mer formell eller informell beroende på sammanhang. Runt hörnet väntar givetvis specialiserade modeller för olika typer av text. En för tekniska manualer, en för projektplanering, en för forskningsansökningar, en för juridik och så vidare.

Men allra mest spännande är nog hur språkmodellerna används för att ta sig an utmaningar som man egentligen inte alls tänker på som textbehandling. Som forskarna hos Meta som använder språkmodeller för att förutspå proteinstrukturer. Så snart ett problem på något sätt går att uttrycka i text kommer det många gånger också att vara tillgängligt för en generativ ai-modell att ge sig i kast med.

När det gäller modellerna för bild är motsvarande utveckling på gång, och handlar då bland annat om att stötta i kreativa processer eller om att skapa stora mängder träningsdata för ai-modeller som ska lära sig identifiera cancertumörer eller identifiera gångtrafikanter i självkörande fordon.

Zoomar man ut från de enskilda tillämpningarna blir det tydligt att vi just nu ser en infrastruktur för nya tjänster och lösningar växa fram. Helt i linje med det vi under några år sett på 33-listan, Ny Tekniks startuplista, där ai på olika sätt är viktiga byggblock för många av de bolag som tar en plats på listan.

När de generativa ai-modellerna blir brett tillgängliga kommer de att lägga grunden för en ny snabb innovationscykel, men också bland bolag som inte är fullt så tekniskt avancerade som de på 33-listan.

 

Anders Thoresson är teknikjournalist och medverkar regelbundet i Ny Teknik. Han är också medarbetare vid AI Sweden.

Anders Thoresson

Kommentarer

Välkommen att säga din mening på Ny Teknik.

Principen för våra regler är enkel: visa respekt för de personer vi skriver om och andra läsare som kommenterar artiklarna. Alla kommentarer modereras efter publiceringen av Ny Teknik eller av oss anlitad personal.

  Kommentarer

Debatt