Gigantiska datamängder löser riktiga problem

2017-05-22 06:00  
Företag och organisationer måste se möjligheterna med att använda och rätt hantera analys av stora datamängder. Forskningsingenjören Hans Salomonsson och professor Devdatt Dubhashi arbetar med satsningen Big Data at Chalmers. Foto: Sören Håkanlind

Data är råvaran, och dataanalys är förädlingen. Det kallas ”big data” och kommer att förändra i stort sett alla verksamheter. Men finns det kompetens för att utnyttja möjligheterna?

Big data har länge varit ett hajpat begrepp. Flera tekniktrender samverkar nu för att på bred front ta big data-metoderna från forskning ut till företag, myndigheter och andra organisationer.

Det handlar om allt kraftfullare beräkningskapacitet, bland annat i form av processorer särskilt utvecklade för att hantera stora datamängder. Med molnet har det blivit möjligt att betala för beräkningskapacitet när den behövs. Det finns också nya sätt att samla in data, bland annat i form av billiga, uppkopplade och strömsnåla sensorer. Och sjunkande kostnader för lagring gör det möjligt att spara mer data.

– En konsekvens av detta är att datamängderna i dag är enorma och har öppnat upp nya dörrar för mer avancerade algoritmer inom statistisk modellering, sannolikhetsteori och optimering. Modern maskininlärning, av vilket deep learning är en del av, baserar sig på resultat från samtliga av dessa områden.

Det säger Devdatt Dubhashi, professor i datavetenskap på Chalmers och koordinator för satsningen Big Data at Chalmers.

– Initiativet bygger på idén att data kommer att driva utvecklingen inom väldigt många områden, och där vi bland annat ska vara en resurs för andra forskningsområden på Chalmers.

De stora tillämpningsområdena har hittills varit inom life science, bild- och språkanalys. Det som kommer nu är de kommersiella tillämpningarna, säger Devdatt Dubhashi.

En del av dem är redan vardag för de flesta av oss, utan att vi reflekterar över det. Filmrekommendationer hos Netflix och musikförslag hos Spotify är två exempel som han lyfter fram, tillsammans med nätannonser och kreditbolag som bedömer kreditrisker.

Andra exempel är fabriker som samlar in data om produktionen. För autonoma fordon kommer big data vara en viktig komponent. En annan sektor som Devdatt Dubhashi nämner är hälso- och sjukvård.

– På lång sikt tror jag att det är ett av de områden där big data kommer att få allra störst effekt. Alltmer patientdata samlas in elektroniskt. Vi har fått möjligheter att göra sekvensering av människans hela arvsmassa och den medicinska forskningen går snabbt framåt, säger han.

Det lägger grunden för helt nya sätt att ställa diagnos, eller upptäcka tidiga tecken på en sjukdom. Det behöver inte nödvändigtvis ens handla om provtagning eller övervakning av patienter. Microsoft har i samarbete med cancerforskare visat hur analys av de sökfraser som används i Bing har potential att fungera som tidiga tecken på svårdiagnostiserade cancerformer.

Listan med områden som kommer dra nytta av utvecklingen inom big data, ai och maskininlärning går att göra lång.

Mikael Haglund är teknisk direktör på IBM i Sverige och väljer att vända på Ny Tekniks fråga om vilka branscher som kommer att påverkas av dataanalys.

– Tala i stället om för mig vilka verksamheter som inte kommer att dra nytta av de här möjligheterna. Man behöver mäta och väga det man gör, analysera datan och dag för dag förbättra processer, produkter och tjänster. Det gäller alla, säger han.

Men vi är inte där än. Mikael Hag-lund pratar om ett innovationsvakuum. Att det i dag är möjligt att göra långt mycket mer med tekniken än vad som faktiskt sker. En förklaring är bristen på kompetens.

– Det skulle exempelvis gå att göra väldigt avancerade lösningar för prediktivt underhåll redan i dag. Men kunderna måste fråga efter det. Och för att dra nytta av de här verktygen krävs både kunskap om dataanalys, men också domänkunskap om området där den ska tillämpas, säger Mikael Haglund.

Han exemplifierar med en biltillverkare som hade problem med elektriska backspeglar som gick sönder, men i huvudsak på bilar som såldes i Sverige och Norge.

– Med hjälp av dataanalys gick det att hitta ett samband mellan verkstadsbesök, utomhustemperatur och en trasig backspegel. Men det krävdes kunskap om fordonsbranschen för att förstå varför: att bilarna tvättades i samband med servicen, att backspeglarna frös fast när bilen ställdes på parkeringen utanför och elmotorn som skulle vrida dem sedan gick sönder.

På Chalmers är Hans Salomonsson kollega med Devdatt Dubhashi. Han lyfter fram en annan aspekt som också påverkar behovet av domänkompetens.

– Ofta går ett resultat att förbättra, och ju mer du kan om området, desto större möjligheter har du att anpassa algoritmerna för den specifika tillämpningen, säger han.

– Det dröjer nog väldigt länge innan det finns färdiga system som går att plocka från en hylla och som löser samtliga utmaningar i en organisation. Men väldigt mycket har hänt på programvarusidan bara de senaste åren, med flera bra verktyg med öppen källkod.

Utmaningen är att de är väldigt generella. Det gäller att hitta rätt tillämpning för den egna verksamheten. Vägen dit går, enligt Hans Salomonsson, via ett par enkla frågor: Vilka utmaningar har vi i organisationen? Vilken data finns, eller kan enkelt samlas in? Och slutligen, vilka algoritmer kan vi kombinera för att bygga ett system som löser våra identifierade utmaningar med hjälp av vår data?

– I ett genomsnittligt företag finns åtminstone tiotals, jag skulle kanske till och med säga hundratals, olika tillämpningar för de här typerna av system. Men du måste ha någon som förstår tekniken för att kunna se möjligheterna. Det här kommer att påverka hur företag bedriver sin verksamhet och därmed också hur de måste vara organiserade, säger Hans Salomonsson.

Ibland vet man vad man letar efter. Men med big data-verktygen kommer också ett annat angreppssätt: samla in data under normal drift och övervaka sedan den dagliga verksamheten i jakt på avvikelser.

Det innebär att man inte alltid från början måste veta vilka signaler som är de intressanta. Bara det faktum att något inte längre är som det brukar säger mycket. Sedan kan domänexperterna börja fundera på vad det är som ligger bakom avvikelsen.

Förklaringsmodellen är inte bara viktig när analysen görs, som i exemplet med de sönderfrusna backspeglarna. Den kan också vara viktig i den färdiga tillämpningen. Mikael Haglund exemplifierar med Watson Oncology, IBM:s superdator som i dag hjälper cancerläkare på ett antal sjukhus runt om i världen att hitta lämpliga behandlingsmetoder för sina patienter.

– Datorn är jätteduktig på att hitta sambanden som svarar på frågan om vilken behandling som är lämplig. Men en läkare nöjer sig inte med det svaret, utan vill också veta varför behandlingen är lämpligast, säger Mikael Haglund.

– Det är en generell utmaning när den här tekniken utvecklas. Lösningarna blir lite av svarta lådor, men ofta kommer människorna som använder dem att vilja ha svar på frågan varför.

Vad är big data?

Big data är, precis som namnet antyder, stora datavolymer. De stora framstegen handlar om nya sätt att skapa, samla in, lagra, dela, bearbeta och analysera data. Datorerna som används har på något decennium blivit oerhört mycket kraftfullare samtidigt som molnet gör det möjligt att dela beräkningskapacitet på helt nya sätt.

”Data är den nya oljan”

Det har gått elva år sedan Clive Humby sa att data is the new oil. Den brittiska matematikern hade redan ett decennium tidigare hjälpt varuhuskedjan Tesco att skapa en ny kundklubb som byggde på analyser av kundernas inköp.

Datan – oljan – fanns redan. Clive Humby och hans hustru Edwina Dunn hjälpte Tesco att förädla den, med stor framgång.

Edge computing

Möjligheterna att mäta och samla in data har skapat nya utmaningar. I många potentiella tillämpningar är överföringskapaciteten flaskhalsen. Lösningen: mer beräkningskapacitet närmare datakällan, enligt Mikael Haglund, IBM.

– Det som kallas för ”edge analytics” kommer stark. Vi kan inte längre skicka all rådata till en central databas, utan måste göra en gallring tidigare. Autonoma fordon är ett exempel på det. Skulle du samla in allt som deras sensorer ser skulle du få en fantastisk databas. Men det är inte möjligt. I stället är det skillnaderna mellan vad sensorerna förväntar sig och vad de faktiskt ser som blir det intressanta. På samma sätt i många industriella processer, det som avviker från det normala är det som faktiskt skickas vidare.

Tillgång till data

Som drivande faktorer bakom big data-vågen nämns ofta de tekniska framsteg som handlar om lagring och analys av data. Men väldigt viktigt är också att tillgången till data ökar inom väldigt många områden. Utrustning för att sekvensera mänsklig arvsmassa är ett exempel på det. Internets explosion ett annat, där företag som Google får tillgång till dokument på många olika språk, vilket bland annat kan fungera som träningsmaterial för självlärande algoritmer inom språkanalys.

Anders Thoresson

Kommentarer

Välkommen att säga din mening på Ny Teknik.

Principen för våra regler är enkel: visa respekt för de personer vi skriver om och andra läsare som kommenterar artiklarna. Alla kommentarer modereras efter publiceringen av Ny Teknik eller av oss anlitad personal.

Här är reglerna för kommentarerna på NyTeknik

  Kommentarer

Dagens viktigaste nyheter

Aktuellt inom

Debatt

COMSOL