Nu är det klart att Nationella ²õ±è°ùÃ¥°ìbanken och Kungliga biblioteket ingÃ¥r i ett samarbete för att förbättra processen vid massdigitalisering av text. Projektet, som löper 2019–2020, kommer att vara en viktig del i den pÃ¥gÃ¥ende digitaliseringen av dagstidningar vid Kungliga biblioteket.
Bild: Kungliga biblioteket
Kungliga bibliotekets databas med svenska dagstidningar innehåller idag material från över 400 titlar, från 1645 till idag, och databasen utökas ständigt. Samtidigt har datadriven forskning de senaste åren blivit ett centralt begrepp inom humaniora och samhällsvetenskap och tekniken för att överföra bild till maskinläsbar text är av avgörande betydelse inom båda fälten.
Det digitala formatet möjliggör helt nya sätt att bearbeta text som det tryckta formatet tidigare inte har kunnat erbjuda. När den digitala texten bearbetas algoritmiskt ökar dock kraven på tillförlitlighet, och OCR-tekniken är central för att göra tidningsresurser tillgängliga. Faktorer som tryckteknik, layout och papperskvalitet försämrar dock ofta korrektheten hos den OCR-producerade texten och detta hoppas nu deltagarna i projektet att avhjälpa genom att utveckla en modul för OCR-bearbetning som kan justeras för att matcha ett specifikt källmaterial.