Fönstret till historien
Kort beskrivning
Automatiserad handskriftsigenkänning med hjälp av artificiell intelligens har på senare år inneburit nya möjligheter i tillgängliggörandet av historiska texter. På svenska används ofta förkortningen HTR, av den engelska termen Handwritten Text Recognition.
Projektet Fönstret till historien syftar till att träna en AI-modell, baserad på Trabskribus, som förmår att läsa historiskt material skrivet med kyrillisk kursivskrift, så kallad "skoropis".
Projektets material består av "Smolenskarkivet", en samling dokument skrivna på ryska i början av 1600-talet.
Bakgrund
Länder i norra och östra Europa, däribland Sverige, Finland, Estland och Ukraina, har omfattande samlingar av äldre arkivmaterial på ryska (från tiden före 1800). Det material som finns i Sverige har utpekats som rikt och unikt. Samlingarna består till största delen av handskrivet material, vilket kräver specialkunskaper i kyrillisk paleografi hos historiker och språkvetare som önskar arbeta med materialet. Ur tillgänglighetssynpunkt är detta en tung hämsko.
Mål
Projektets mål är att väsentligt förbättra tillgängligheten till handskrivna, kyrilliska dokument i svenska arkiv genom att skapa en AI-modell för handskriftsigenkänning inom tjänsten Transkribus. Modellen skall kunna transkribera kyrillisk kursiv skrift (såkallad skoropis’) från 1600-talet med en CER (character error rate) som möjliggör en avsevärd tidsbesparing jämför med manuell transkribering. Baserat på tidigare forskning bör CER ligga under 10%. De kvantitativa ramarna för detta projekt har satts med utgångspunkt från de krav som ställs för att skapa en framgångsrik AI-modell som förmår transkribera äldre slaviska handskrivna dokument med en CER väl under 10%.
Automatiserad handskriftsigenkänning med hjälp av datorkraft har på senare år inneburit nya möjligheter i tillgängliggörandet av historiska texter. På svenska används ofta förkortningen HTR, av den engelska termen Handwritten Text Recognition. HTR är en form av övervakad maskininlärning – en dator lär sig att transkribera handskrift med hjälp av träningsdata där användaren redan har förberett de rätta svaren. Det tränade programmet kan sedan avkoda handskrift som ännu inte har transkriberats på en bråkdel av den tid som krävs för mänsklig transkribering. På så sätt kan arkivmaterial tillgängliggöras för användare utan specialkunskaper i paleografi. Dessutom finns stora effektiviseringsmöjligheter när tidskrävande transkribering kan utföras med stöd av datorkraft.
Den HTR-modell som utvecklas inom pilotprojektet kan ligga till grund för ytterligare vidareutveckling av bredare HTR-modeller för skoropis’ som i framtiden kan bidra till ett storskaligt tillgängliggörande av äldre slaviskt arkivmaterial.
Pilotprojektet Fönstret till historien är inte uteslutande av ett nationellt, svenskt intresse. Det kan också bidra till tillgängliggörande av arkivmaterial på ryska i länder inom EU, liksom i europeiska länder utanför unionen, exempelvis Ukraina.
Deltagarna i pilotprojektet står i kontakt med ledande europeiska forskare på området HTR och äldre slavistik.
Som material för det föreslagna projektet används det såkallade Smolenskarkivet som är digitiserat och förvaras på Riksarkivet. I den digitala forskarsalen återfinns materialet under rubriken Handlingar från Smolensk. Totalt omfattar samlingen omkring 850 arkivenheter, av vilka omkring 600 enheter (omkring 1,300 blad) finns på Riksarkivet och omkring 250 på Historiska institutet vid Ryska vetenskapsakademin і Sankt Petersburg.
Smolenskarkivet lämpar sig särskilt väl för att skapa en HTR-modell som kan läsa historisk rysk handskrift, eftersom det material som finns på Riksarkivet har digitiserats och finns tillgängligt som högupplösta bilder via Riksarkivets digitala forskarsal.
En mindre del av materialet har också redan transkriberats i samband med tidigare projekt och finns att tillgå tillsammans med de digitala bilderna. Transkriptionen har normaliserat texten genom att flytta ner supralineära tecken på raden samt att modernisera stavningen i vissa fall (t.ex. tillämpas modern stavning så att grafemet jat ⟨ѣ⟩ återges med ⟨e⟩). HTR-modeller i Transkribus kan i viss mån tränas att normalisera stavning, men en diplomatarisk transkription rekommenderas som träningsmaterial.