Digitalisering

Så ska Facebook lära ai se som människor

Facebooks databas innehåller tusentals timmar video ur förstapersonsvy. Foto: Facebook

En ny databas med 2 200 timmar video ur ett mänskligt perspektiv ska göra det enklare för forskare att bygga ai-tjänster för bland annat smarta glasögon.

Publicerad

Smarta glasögon, uppkopplade linser eller headset för förstärkt verklighet. Det finns en vision om att vi på sikt kommer att digitalisera vårt synfält i allt större utsträckning.  

Samtidigt har det senaste decenniets många framsteg inom artificiell intelligens gjort datorer betydligt bättre på bildanalys. Om de här tekniktrenderna kan mötas finns en framtid där ett par smarta glasögon kan besitta en inbyggd ai-assistent som hjälper dig i vardagen. 

Nu har Facebook lagt en grundsten för att kunna utveckla en sådan ai. I dag tillkännagav företaget att de släpper en databas med 2 200 timmar video filmad ur ett mänskligt perspektiv (point-of-view). Alla filerna är annoterade och fria att använda för forskare. 

”Nästa generations ai-system måste lära sig från en helt annan typ av data - videor som visar världen från händelsernas centrum snarare än från sidlinjen”, säger Kristen Grauman som är ansvarig forskare på Facebook i ett blogginlägg.

Ai-assistenter för smarta glasögon

Databasen, som är den hittills största i sitt slag, kallas Ego4D och är tänkt att göra det enklare att träna en ai att förstå hur världen ser ut genom en människas ögon. Det är något som inte minst Facebook själva kan dra nytta av, via förvärvet av vr-företaget Oculus är nätjätten en av de största spelarna inom förstärkt och virtuell verklighet.  

Facebook har vidare satt fem konkreta mål för vilken typ av uppgifter en ai-assistent för smarta glasögon ska kunna klara. Här illustrerade med exempel på frågor eller interaktioner som en sådan assistent skulle kunna hantera:

  • Episodiskt minne – ”Var har jag lagt mina nycklar?” 
  • Prediktion – ”Vänta, du har redan tillsatt salt i maten.”  
  • Manipulation av händer och föremål – ”Lär mig spela trummor.”
  • Audio-visuell dagboksföring – ”Vad handlade min lektion i dag om?”
  • Sociala interaktioner – ”Hjälp mig höra vad personen som pratar med mig i den här högljudda miljön säger.”  

Forskare från 12 universitet har bidragit till att ta fram databasen, som blir tillgänglig för forskargrupper världen över i november i år.