91̽»¨

³¢Ã¤²Ô°ì²õ³Ù¾±²µ

Nationella ²õ±è°ùÃ¥°ìbanken förbättrar digitaliseringen av dagstidningar

Nu är det klart att Nationella ²õ±è°ùÃ¥°ìbanken och Kungliga biblioteket ingÃ¥r i ett samarbete för att förbättra processen vid massdigitalisering av text. Projektet, som löper 2019–2020, kommer att vara en viktig del i den pÃ¥gÃ¥ende digitaliseringen av dagstidningar vid Kungliga biblioteket.

 
Bild: Kungliga biblioteket

Kungliga bibliotekets databas med svenska dagstidningar innehåller idag material från över 400 titlar, från 1645 till idag, och databasen utökas ständigt. Samtidigt har datadriven forskning de senaste åren blivit ett centralt begrepp inom humaniora och samhällsvetenskap och tekniken för att överföra bild till maskinläsbar text är av avgörande betydelse inom båda fälten.

Bild
Dana Dannélls
Foto: Jessica Oscarsson

Dana Dannélls frÃ¥n Nationella ²õ±è°ùÃ¥°ìbanken menar att projektet har goda chanser att förbättra digitaliseringsprocessen.

- Bland annat kommer vi att genomföra en utvärdering och förbättring av de redskap som används i digitaliseringen, så kallad Optical Character Recognition (OCR). Främst gäller det att förbättra dessa redskap genom systematiska textanalyser, lexikon och ordlistor, säger Dana Dannélls.

Digitaliserad text – möjligheter och krav

Det digitala formatet möjliggör helt nya sätt att bearbeta text som det tryckta formatet tidigare inte har kunnat erbjuda. När den digitala texten bearbetas algoritmiskt ökar dock kraven på tillförlitlighet, och OCR-tekniken är central för att göra tidningsresurser tillgängliga. Faktorer som tryckteknik, layout och papperskvalitet försämrar dock ofta korrektheten hos den OCR-producerade texten och detta hoppas nu deltagarna i projektet att avhjälpa genom att utveckla en modul för OCR-bearbetning som kan justeras för att matcha ett specifikt källmaterial.

- ³§±è°ùÃ¥°ìbanken har stora mängder historisk text som är fritt sökbar via sökverktyget . En del av texterna i ³§±è°ùÃ¥°ìbankens databas är digitaliserade dagstidningar som kommer frÃ¥n Kungliga biblioteket. Genom att minska OCR-felen i dessa kommer tillgänglighet till materialet förbättras, säger Dana Dannélls.

Projektet finansieras med 1 689 000 SEK frÃ¥n Riksbankens Jubileumsfond och förväntas pÃ¥gÃ¥ mellan januari 2019 och december 2020. Deltar i projektet gör Dana Dannélls frÃ¥n Nationella ²õ±è°ùÃ¥°ìbanken tillsammans med Lars Björk och Torsten Johansson vid Kungliga Biblioteket.


°¿³¾°ùÃ¥»å±ð
Kultur & ²õ±è°ùÃ¥°ì