Panama-läckan: ”Vi har hela databasen”

2016-04-12 13:12  

Mossack Fonsecas interna databas ingår i Panama-läckan. Det avslöjar María del Mar Cabra på det internationella journalistnätverket ICIJ.

Efter att 11, 5 miljoner dokument läckt från advokatbyrån Mossack Fonseca i Panama meddelade bolaget sina klienter att man utsatts för en hackerattack och nu undersöker exakt vilken information som kan tänkas ha läckt ut.

Men enligt María del Mar Cabra, som basar för datahanteringen på ICIJ (International Consortium of Investigative Journalists), ingår Mossack Fonsecas interna databas i samlingen av Panama-dokument.

Det är ICIJ som tillsammans med Süddeutsche Zeitung har tagit hand om filerna, som först lämnades till den tyska tidningen av en visselblåsare som kallade sig John Doe. De innehåller bland annat uppgifter om 214 488 brevlådeföretag och deras affärstransaktioner.

Ny Teknik träffade henne nyligen när Föreningen grävande journalister, FGJ, höll sitt årliga seminarium i Göteborg.

– Vi har hela databasen med strukturerad information.

Och utöver dem finns det också ostrukturerade dokument i läckan, uppger hon.

Läs mer:

Läs mer: Mossack Fonseca uppger att e-postservern hackats

María del Mar Cabra berättar också nya detaljer kring journalistnätverkets hantering av all data.

ICIJ har datajournalister och programmerare som jobbar i team för att bistå journalister i världen som jobbar med dokumenten och som efter olika avslöjanden, bland annat i SVT, nu fortsätter att gräva i innehållet.

De 2,6 terabyte tunga filerna, som ”John Doe” lämnade till reportrar på den tyska tidningen i fjol, är den största som ICIJ hanterat hittills. Den består bland annat av en stor andel mejl, som i sin tur har bilagor.

Det Süddeutsche Zeitung först gjorde var att använda programvaran Nuix, en sökmotor som läste in filerna som text och bilder via OCR-inläsning och därigenom gör dem sökbara. Den användes lokalt, i tidningens nätverk, berättar Maria del Mar Cabra för Ny Teknik.

Läs mer:

Läs mer: Mjukvaran bakom Panama-avslöjandet

ICIJ däremot hade inte egen tillgång till Nuix, uppger hon. I stället använde man andra mjukvaror för att söka i dokumenten.

Via en automatiserad process tog det elva dagar för ICIJ:s team att göra läckan sökbar. Bland annat använde man 35 virtuella servrar för att snabba upp inläsningen.

– ICIJ använder sig för det mesta av open source-program, som vi själva kan förbättra. Inte minst av kostnadsskäl, säger hon. Nätverkets budget är begräsad till 1- 1,5 miljoner dollar per år.

Programmet som ICIJ använde för att läsa in och indexera handlingarna heter Solr. För att söka i dem användes sedan mjukvaran Blacklight.

Via plattformen Linkurious, som innehåller den svenska grafdatabasen Neo4j, sparades sedan all metadata i materialet, uppger María del Mar Cabra.

Läs mer:

Läs mer: Svensk databasteknik nystade upp Panama-härvan

Metadata är uppgifter som omgärdar kommunikation – exempelvis information om vem som mejlade till vem, när och hur och varifrån. Dessa metadata lagrades som värden, med vars hjälp kopplingar mellan namn och företag kan spåras. Relationerna/graferna presenteras sedan fram med hjälp av Linkurious, som är ett visualiseringsverktyg.

Den rekordstora läckan har av The Economist kallats ”Århundradets läcka”.

Den kan jämföras med Wikileaks-läckan med amerikanska UD-telegram 2010, på 1, 7 gigabyte, eller med Luxleaks 2014, på 4 gigabyte, eller med Swissleaks 2015 som innehöll filer motsvarande 3,3 gigabyte.

Kommentarer

Välkommen att säga din mening på Ny Teknik.

Principen för våra regler är enkel: visa respekt för de personer vi skriver om och andra läsare som kommenterar artiklarna. Alla kommentarer modereras efter publiceringen av Ny Teknik eller av oss anlitad personal.

  Kommentarer

Debatt