Ai tränas för att läsa gammal handskrift 

2021-03-02 09:41  

Vad sägs om att kunna söka efter hundratals år gamla dokument i helt digitaliserade arkiv? Ett neuralt nätverk som lärt sig läsa handskriven text gör att det nu är verklighet i Sverige.

Det hela började på universitetet i österrikiska Innsbruck. Günter Mühlberger är i grunden litteraturvetare och skrev sin doktorsavhandling om Johann Wolfgang von Goethe, men 2009 bytte han fokus till att göra mjukvara för igenkänning av handskriven text.

Idén var att använda neurala nätverk för att läsa gamla dokument. Det är betydligt svårare än vad man kan tro, eftersom det inte räcker att läsa av enskilda bokstäver.

– Den traditionella vägen för neurala nätverk att läsa är att separera ord och bokstäver och sen tolka dem. Men för handskriven text kan det vara omöjligt. Stilen kan skilja sig väldigt från person till person, berättar Günther Mühlberger på videolänk från ett soligt Innsbruck.

Läs mer: Voynich knäcker kodknäckarna – nu får ai chansen

Men tillsammans med universiteten i Valencia och Rostock har man lyckats knäcka gåtan. Tekniken fungerar genom att nätverket identifierar linjer på en sida, och tar en bild på en varje linje. Sedan segmenteras bilden till olika utdrag. Varje utdrag transkriberas sedan utifrån de data nätverket tränats med.

Det är egentligen där nyckeln sitter – att träna nätverket på rätt sätt.

– Om nätverket känner igen handstilen får du väldigt bra resultat, max två – tre procent fel. Med flera olika handstilar som nätverket känner igen blir andelen fel mellan tre och fem procent. Det svåraste är många olika handstilar som nätverket inte känner igen, då kan det bli sex till åtta procent fel, säger Günter Mühlberger.

En stor utmaning

I och med att handstilarna kan skilja sig åt rejält i äldre dokument blir det en stor utmaning. En annan svårighet är när text har strukits över, eller om det har skrivits i marginalen.

– Men den har blivit duktig på att hitta text på konstiga ställen, det kunde den inte för två-tre år sedan, säger Günther Mühlberger.

Tekniken ägs av föreningen Read Coop SCE, som har gjort mjukvaran fri att använda. Den som vill kan träna upp en egen modell av det neurala nätverket. Hittills har mer än 8 500 modeller tränats på hundratusentals sidor.

– För en basal modell måste användaren själv transkribera mellan 20 och 50 sidor, som modellen sedan får läsa. Det är faktiskt så enkelt, säger Günther Mühlberger.

Även anteckningen “Nr 32 Herman Nilsson” i marginalen kommer med i transkriberingen. Foto: Riksarkivet/skärmdump

Föreningen ägs av drygt 80 universitet, arkiv och privatpersoner i hela världen, där ingen får äga mer än en liten del. I Sverige är Riksarkivet en av de inblandade aktörerna. I maj 2020 inleddes ett projekt där polisrapporter från Göteborg, daterade till mellan 1868 och 1902, digitaliseras och transkriberas med hjälp av tekniken.

Satsningen är en del av ett projekt med stöd från Vinnova, och löper ut maj 2021.

– Vi testar nu tekniken på en mindre mängd material, men siktar på att göra det i större skala senare, säger Olof Karsvall, forskningsledare på Riksarkivet.

Volontärer transkriberar

Att få igång det neurala nätverket kräver en del manuellt arbete, konstaterar Olof Karsvall.

– Det kräver att vi kan lära modellen att läsa en viss typ av text. Matar vi den med 300–400 sidor får vi ner felprocenten på den maskinlästa texten till några få procent, säger han.

En grupp volontärer från allmänheten hjälper till med att transkribera sidor som sedan matar nätverket. På sikt, när man utvecklat färdiga modeller för olika tidsperioder och handstilar, är förhoppningen att det ska gå mer automatiskt.

– Vi har varken resurser eller tid att transkribera allt, vi har enormt mycket arkivmaterial, säger Olof Karsvall.

Den som är nyfiken på att söka i de ai-transkriberade dokumenten över polisrapporter från 1800-talet, eller kartor över Sveriges byar och gårdar på 1600-talet, kan göra det här.

Henning Eklund

Kommentarer

Välkommen att säga din mening på Ny Teknik.

Principen för våra regler är enkel: visa respekt för de personer vi skriver om och andra läsare som kommenterar artiklarna. Alla kommentarer modereras efter publiceringen av Ny Teknik eller av oss anlitad personal.

  Kommentarer

Debatt

Läs mer