TECH

Guide: Här är ai-verktygen som kan ge ditt jobb en boost

Språkmodeller och generativ artificiell intelligens har lett till en explosion av nya tjänster och verktyg – och fler lär det bli. Här presenterar vi undan för undan de mest spännande satsningarna.

Publicerad Uppdaterad

På det här utrymmet tänker vi presentera en lista över ai-teknik som fångat vårt intresse – och vi tänker fylla på den allt eftersom. Kanske kan dessa tjänster eller verktyg ge inspiration eller vara till nytta i din vardag eller i din yrkesroll.

1 februari 2024 - Googles Lumiere tar text-till-video till nya höjder

Text-till-bild-verktyg som Dall-e och Midjourney har på kort tid blivit extremt kapabla. Nästa frontlinje är video. Stability, Runway och Pika Labs är några av de mest välkända aktörerna när det gäller ai-video.

Men nu har Google Research tagit ett språng framåt i utvecklingen med ai-modellen Lumiere (döpt efter bröderna och filmpionjärerna Auguste och Louis Lumière). Forskarna har utvecklat en ai-modell som kan skapa en video i ett stycke utan att, som annars är vanligt, förlita sig på så kallade nyckelbilder. Modellen har alltså inte bara en rumslig förståelse (för att skapa scener och var objekt ska placeras i dem) utan också en tidslig (för att skapa rörelse över tid). Google Research kallar modellen Space-Time-U-Net, eller Stunet, och har beskrivit den mer utförligt i en preprintartikel.

I en video visar Google Research hur Lumiere också kan skapa innehåll utifrån en stillbild eller generera cinemagrafier, där enskilda detaljer i en stillbild är i rörelse.

Lumiere finns än så länge inte som något publikt verktyg man kan testa själv.

29 januari 2024 - Arc Search bygger en webbsida för varje sökning

Appen Arc Search är inte som andra sökmotorer. När du skrivit det du söker efter kan du klicka på ”browse for me”. Istället för att serveras en länklista skapas en egen webbsida för din sökning. Där sammanfattas (förhoppningsvis) den viktigaste informationen. När jag sökte efter ”vad har tidningen Ny Teknik skrivit om idag” återgav den rubrikerna för de tio översta artiklarna på vår webbplats. Något längre ned på den snabbt hopsnickrade hemsidan fick jag sammanfattningar av de för dagen största nyheterna på nyteknik.se.

Bakom appen står The Browser Company, kända för sin nyskapande webbläsare, Arc. Med Arc Search vill Browser Company förena sökmotor, generativ ai och webbsida.

Arc Search är väldigt snabb och resultaten den levererar är imponerande. Samtidigt tycks den sakna stöd för svenska och även om jag får en snabb överblick av det senaste från Ny Teknik så måste jag klicka mig vidare för att få veta mer.

Min misstanke är dock att Browser Company (och deras rivaler) knappast tänker stanna där. Så frågan är vad mina chefer skulle tycka om att tredje part tar vårt innehåll, paketerar det tillräckligt tjusigt och får våra presumtiva läsare att nöja sig med Arc Search? Browser Companys app visar att det är en fråga som lär behöva ett svar förr eller senare.

Arc Search ger inte länkar som svar - utan bygger en webbsida baserat på vad du söker efter.

18 oktober 2023 – Din röst på fler språk än du behärskar

Det är min röst. Läpparna ser ut vara synkroniserade med orden som uttalas. Men jag kan inte tala tyska och kan bara några få ord japanska. Det är rätt märkligt att höra sin egen röst på språk jag inte behärskar. I den ursprungliga videon (inspelad inför ett panelsamtal på Tekniska museet – därav Linkedin-hänvisningen) talar jag engelska. Ai-verktyget som gör det här möjligt utvecklas av företaget Heygen. Det kostar en rätt rejäl slant – 59 dollar i månaden – men i övrigt är det otroligt smidigt. Spela in video. Ladda upp video. Välj vilket språk den ska dubbas till. Vänta några minuter. Pronto.

Dubbning med ai lär vara här för att stanna. Nyligen berättade Spotify att de i samarbete med Open AI ska börja översätta delar av sitt podcastutbud med klonade röster. Man förstår varför stjärnorna i Hollywood är nervösa.

Ändå är det kanske mest spännande – och läskiga – verktyget i Heygens låda klonade avatarer. Man spelar in en video med sig själv där man talar under ett par minuter. Videon används som mall för ai-modellen att skapa en personlig och mycket realistisk avatar av användaren. Sedan kan man bara skriva ett manus åt sin avatar för att göra ny en video.

Visst, det här är en ny nivå av deepfake och ännu en anledning till vara misstänksam mot innehåll på nätet. Men det kan samtidigt vara en fantastisk tillgång om avsikterna är goda.

13 oktober 2023 - Naturliga röstsamtal med Chat GPT

Precis när vi vant oss vid chattbotarnas förbluffande förmåga att generera användbar text så har de fått förmågan att tala och lyssna. Ny Teknik har precis fått tillgång till den uppdaterade versionen av Chat GPT. Det fungerar inte helt perfekt och under vissa tidpunkter på dygnet är trafiken så hög att Open AI:s chattbot helt enkelt ber oss återkomma senare. Men make no mistake: det här är på en helt annan nivå än vad vi är vana vid från interaktioner med Siri, Alexa och Googles assistent. Överraskande ofta är det mer eller mindre som att tala med en människa. Se själva i vår video.

23 mars 2023 - Sju ai-startupbolag att hålla koll på

Chattboten Claude finns bland annat integrerad i appen Poe.

Claude: Chattbot

Startupbolaget Anthropic lanserade i mars 2023 chattboten Claude. Anthropic är grundat av före detta medarbetare på Open AI. Något som gör att företaget sticker ut i mängden är att de så explicit är tydliga med att de förstår det så kallade alignment- eller kontrollproblemet. Alltså hur man ska säkerställa at ai – både nu, men i synnerhet om den når generell intelligens – har mål som inte avviker från mänsklighetens.

Claude sägs därför vara mindre benägen att generera rasistiskt eller sexistiskt innehåll, tenderar att hallucinera mindre och sägs undvika att ge råd om sånt som exempelvis illegal verksamhet. För att lyckas med detta har Anthropic byggt ett ramverk de kallar ”konstitutionell ai”, där Claude ska rätta sig efter ett antal fastställda principer.

Under betafasen visade det sig dock att inte ens Claude helt och hållet kan följa de mål Anthropic försett chattboten med. En testanvändare fick till exempel instruktioner om hur man går tillväga för att tillverka metamfetamin hemma.

Likväl har företagen bakom verktyg och plattformar som Notion, Quora och Duckduckgo införlivat Anthropics ai i sina produkter. Och Google har investerat 300 miljoner dollar i startupbolaget.

ACT-1: Kan agera på internet

Adept är ett företag att hålla ögonen på. För det första har grundarna expertis från Google och Open AI. För det andra ligger två av dem – Ashish Vaswani and Niki Parmar – bakom den vetenskapliga artikel som ledde fram till de senaste årens exempellösa ai-genombrott. Artikeln med rubriken ”Attention is all you need” från 2017 beskrev en transformerarkitektur med en attention/uppmärksamhetsmetod (som vi skrivit betydligt mer om här).

För det tredje? Jo, Adept vill inte bara att artificiell intelligens ska kunna läsa och skriva, utan också kunna agera på internet. Deras första modell, ACT-1 (action transformer-1), fungerar som ett plugin till webbläsaren Chrome som kan klicka, skriva och scrolla. I sinom tid föreställer sig Adept att vi inte knappar in det vi är ute efter på nätet – utan överlåter det uppdraget till vår chattbot, genom att tala med den.

Det här är naturligtvis ingen nyss påkommen idé och vi serverades samma löften när röstassistenter i smarta högtalare var populära. Men som alla noterat är dagens ai-modeller väldigt mycket mer kraftfulla och kapabla.

Gen-2: Video-till-video

Gen-2.

Stable Diffusion är tillsammans med Midjourney och Dall-e den mest kända text-till-bild-generatorn. Nu har företaget bakom Stable Diffusion, Runway, släppt Gen-2. Det är en video-till-video-generator.

Användaren kan ta en befintlig video och förvandla den bara genom att med text beskriva sitt önskemål. Filter, masker och annat kan adderas genom att via text och/eller bild beskriva det resultat man är ute efter.

Harvey AI: Juridisk hjälpreda

En ai-modell som bygger på GPT-4, anpassad för juridik. Allen & Overy, en av Englands största advokatbyråer, har betatestat Harvey sedan november 2022. Omkring 3 500 av deras medarbetare ställde runt 40 000 frågor till Harvey under testfasen, om allt från kontraktsanalys, företagsbesiktning och efterlevnad av regulation.

Allen & Overy menar att Harvey utifrån stora volymer data kommer att kunna generera insikter, rekommendationer och förutsägelser, som granskas av en mänsklig advokat.

– Jag har aldrig sett något som Harvey tidigare…den är en game-changer som kan släppa lös kraften i generativ ai för att omvandla vår industri…under vårt test såg vi en del fantastiska resultat, säger David Wakeling, chef för marknadsinnovation på Allen & Overy, i ett pressmeddelande.

Macwhisper: Transskribering

Att transskribera tal till text är för många journalister och forskare ett arbete som tar mycket tid i anspråk. På senare år har en rad ai-lösningar dykt upp som haft det gemensamt att de inte har varit särskilt bra. Macwhisper är dock ett steg i rätt riktning. Det bygger på Open AI:s transformerbaserade tal-till-text-modell Whisper.

Ny Teknik serverade Macwhisper en timmes intervju på svenska med dålig ljudkvalitet och det fungerade överraskande bra. Dessutom betalar man en engångssumma för verktyget och transskriberingen sker lokalt på datorn.

Ett alternativ om man inte använder en Mac-dator – som också bygger på Whisper – är danska Good Tape.

Midjourney: Text-till-bild

Genererat innehåll i form av illustrationer och bilder förknippas ofta med Open AI:s Dall-e. Frågan är dock om inte konkurrenten Midjourney – när det här skrivs i mars 2023 åtminstone – är vassast. Version 5 av deras ai-modell kan generera bilder så realistiska att det är snudd på omöjligt att avgöra om de är verkliga eller inte.

Skapa videor med hjälp av bara text.

Synthesia: Text-till-video

Addera text. Ut kommer en video med en påfallande människolik avatar. Videon kan designas med olika typer av visuella formspråk, egna logotyper och bakgrundsmusik. Ny Teknik har testat att generera en kort videosnutt på svenska, men där lämnar Synthesia fortfarande en del att önska.