Till startsida
Webbkarta
Till innehåll Läs mer om hur kakor används på gu.se

Nationella språkbanken förbättrar digitaliseringen av dagstidningar

Nyhet: 2018-10-25

 
Bild: Kungliga biblioteket

Nu är det klart att Nationella språkbanken och Kungliga biblioteket ingår i ett samarbete för att förbättra processen vid massdigitalisering av text. Projektet, som löper 2019–2020, kommer att vara en viktig del i den pågående digitaliseringen av dagstidningar vid Kungliga biblioteket.

Kungliga bibliotekets databas med svenska dagstidningar innehåller idag material från över 400 titlar, från 1645 till idag, och databasen utökas ständigt. Samtidigt har datadriven forskning de senaste åren blivit ett centralt begrepp inom humaniora och samhällsvetenskap och tekniken för att överföra bild till maskinläsbar text är av avgörande betydelse inom båda fälten.

Dana DannéllsDana Dannélls från Nationella språkbanken menar att projektet har goda chanser att förbättra digitaliseringsprocessen.

- Bland annat kommer vi att genomföra en utvärdering och förbättring av de redskap som används i digitaliseringen, så kallad Optical Character Recognition (OCR). Främst gäller det att förbättra dessa redskap genom systematiska textanalyser, lexikon och ordlistor, säger Dana Dannélls.

Digitaliserad text – möjligheter och krav

Det digitala formatet möjliggör helt nya sätt att bearbeta text som det tryckta formatet tidigare inte har kunnat erbjuda. När den digitala texten bearbetas algoritmiskt ökar dock kraven på tillförlitlighet, och OCR-tekniken är central för att göra tidningsresurser tillgängliga. Faktorer som tryckteknik, layout och papperskvalitet försämrar dock ofta korrektheten hos den OCR-producerade texten och detta hoppas nu deltagarna i projektet att avhjälpa genom att utveckla en modul för OCR-bearbetning som kan justeras för att matcha ett specifikt källmaterial.

- Språkbanken har stora mängder historisk text som är fritt sökbar via sökverktyget Korp. En del av texterna i Språkbankens databas är digitaliserade dagstidningar som kommer från Kungliga biblioteket. Genom att minska OCR-felen i dessa kommer tillgänglighet till materialet förbättras, säger Dana Dannélls.

Projektet finansieras med 1 689 000 SEK från Riksbankens Jubileumsfond och förväntas pågå mellan januari 2019 och december 2020. Deltar i projektet gör Dana Dannélls från Nationella språkbanken tillsammans med Lars Björk och Torsten Johansson vid Kungliga Biblioteket.

Läs mer om projektet här

Till Språkbankens webbplats

AV:

Kontaktinformation

Institutionen för svenska språket

Box 200, 405 30 Göteborg

Besöksadress:
Renströmsgatan 6

Telefon:
46 (0)31-786 00 00

Sidansvarig: |Sidan uppdaterades: 2017-09-29
Dela:

På Göteborgs universitet använder vi kakor (cookies) för att webbplatsen ska fungera på ett bra sätt för dig. Genom att surfa vidare godkänner du att vi använder kakor.  Vad är kakor?