TECH
Är det här Googles Chat GPT-dödare? - Här är allt du behöver veta om Gemini
Efter Chat GPT-smockan har Google till slut lyckats resa sig. Och kort efter tumultet på Open AI har sökjätten lanserat sin mest ambitiösa ai-satsning hittills: Gemini.
Vad är det som har hänt?
Google har lanserat sin sedan länge omtalade ai-modell, Gemini, ett år efter premiären för Chat GPT. Genomslaget för Open AI:s chattbot överraskade alla, inklusive de stora techjättarna. Google framstod under det här årets första månader som en knockad tungviktsmästare: chockade, yra och förvirrade.
När Google – som sedan länge kallat sig ett ”ai first”-bolag – väl rest sig blev första steget att slå samman Google Brain och Deepmind. Nya Google Deepmind leds av Demis Hassabis, Deepminds grundare och vd, samt affischnamnet för några av ai-historiens största milstolpar, inklusive Alphago och Alphafold.
Det andra steget? Skapa en Chat GPT-dödare. Alltså Gemini.
Är den en Chat GPT-dödare?
Förmodligen inte, men det är svårt att avgöra i nuläget.
Gemini består i själva verket av tre modeller.
Lättviktaren Gemini Nano kan köras på Android-enheter och ska även fungera offline. Faktum är att Nano redan lanserats till Googles senaste premiumtelefon, Pixel 8 Pro.
Gemini Pro är lagom-varianten som inom kort ska införlivas i en herrans massa Google-verktyg och som redan nu har gett Googles bortglömda chattbot Bard nytt liv. Om användares tidiga intryck är något att gå efter känns Bard plötsligt användbar. När Ny Teknik testar Bard får vi dock svaret att den fortfarande baseras på den äldre språkmodellen Palm 2. Och mycket riktigt – Sverige är inte med bland de 170 länder i vilka nya Gemini Pro-bestyckade Bard är tillgänglig.
Gemini Ultra. Om något kan kallas Chat GPT-dödare så är det denna modell. Google uppger att Ultra klår GPT-4 i 30 av 32 riktmärkestester. Den sägs vara särskilt bra på att generera kod och enligt Google kan den läsa hundratusentals vetenskapliga artiklar på kort tid och vaska fram den information användaren är ute efter.
Men att kalla den Chat GPT-dödare är förhastat. Gemini Ultra säkerhetstestas för tillfället och ska lanseras tidigt nästa år. Open AI har visserligen haft vissa bekymmer den senaste månaden men är samtidigt kända för att sjösätta nya modeller och nya funktioner i ett rasande tempo.
Är Gemini en språkmodell?
Nej. Och det är det som gör den så intressant. Demis Hassabis har länge talat om att han vill bygga generella modeller som med många modaliteter ska kunna bygga en bättre representation – en sorts intern bild – av den verkliga världen. Så som vi människor gör med hjälp av våra sinnen. Därför är Gemini från början multimodal. Den är tränad på både text, bild, video, ljud och kod på en och samma gång. Tanken är att kombinationen av modaliteter ska göra den mer kapabel.
Google har släppt en video som demonstrerar detta på ett imponerande sätt (även om man måste fråga sig om de bara valt ut de mest iögonfallande och synnerligen lyckade exemplen). Glöm inte att slå på ljudet.
– Fram till nu har de flesta modeller haft en sorts ungefärlig multimodalitet där man tränat separata moduler och sedan sytt ihop dem. Det är okej för en del uppgifter men du får inte det här djupa multimodala resonerandet då, säger Demis Hassabis till tidskriften Wired.
Vad väntar härnäst?
Precis som Open AI är Google ute efter att skapa modeller som kan planera och utföra handlingar. Och liksom Open AI är de angelägna om att bygga artificiell intelligens som utifrån stora datamängder kan ge oss kunskap vi idag saknar. Men Google Deepmind – och inte minst Demis Hassabis själv – har dessutom ett öga på robotik. En framtida multimodal Gemini-modell lär även tränas på taktil data.
– Det finns mycket potential när det gäller att applicera de här ai-modellerna på robotik och det är något vi lägger stor möda på att undersöka, säger Hassabis till Wired.