Till sidans topp

Sidansvarig: Webbredaktion
Sidan uppdaterades: 2012-09-11 15:12

Tipsa en vän
Utskriftsversion

Integrating language reso… - Göteborgs universitet Till startsida
Webbkarta
Till innehåll Läs mer om hur kakor används på gu.se

Integrating language resources in two OCR engines to improve processing of historical Swedish text.

Poster (konferens)
Författare Dana Dannélls
Leif-Jöran Olsson
Publicerad i CLARIN Annual Conference
Publiceringsår 2018
Publicerad vid Institutionen för svenska språket
Språk en
Ämnesord OCR, Historical Swedish text, Language models.
Ämneskategorier Övrig annan humaniora, Språkteknologi (språkvetenskaplig databehandling)

Sammanfattning

We are aiming to address the difficulties that many History and Social Sciences researchers struggle with to bring in non-digitized text into language analysis workflows. In this paper we present the language resources and material we used for training two Optical Character Recognition engines for processing historical Swedish text written in Fraktur (blackletter). The trained models, resources and dictionaries are freely available and accessible through our web service, hosted at Språkbanken, to enable users and developers easy access for extraction of historical Swedish text a that are only available in images for further processing.

Sidansvarig: Webbredaktion|Sidan uppdaterades: 2012-09-11
Dela:

På Göteborgs universitet använder vi kakor (cookies) för att webbplatsen ska fungera på ett bra sätt för dig. Genom att surfa vidare godkänner du att vi använder kakor.  Vad är kakor?