Till sidans topp

Sidansvarig: Webbredaktion
Sidan uppdaterades: 2012-09-11 15:12

Tipsa en vän
Utskriftsversion

Exploring the Quality of … - Göteborgs universitet Till startsida
Webbkarta
Till innehåll Läs mer om hur kakor används på gu.se

Exploring the Quality of the Digital Historical Newspaper Archive KubHist

Paper i proceeding
Författare Yvonne Adesam
Dana Dannélls
Nina Tahmasebi
Publicerad i Proceedings of the 4th Conference of The Association Digital Humanities in the Nordic Countries (DHN)
Publiceringsår 2019
Publicerad vid Institutionen för litteratur, idéhistoria och religion
Institutionen för svenska språket
Språk en
Länkar ceur-ws.org/Vol-2364/1_paper.pdf
Ämnesord Historical newspaper corpus OCR errors Spelling normalization
Ämneskategorier Språkteknologi (språkvetenskaplig databehandling)

Sammanfattning

The KubHist Corpus is a massive corpus of Swedish historical newspapers, digitized by the Royal Swedish library, and available through the Språkbanken corpus infrastructure Korp. This paper contains a first overview of the KubHist corpus, exploring some of the difficulties with the data, such as OCR errors and spelling variation, and discussing possible paths for improving the quality and the searchability.

Sidansvarig: Webbredaktion|Sidan uppdaterades: 2012-09-11
Dela:

På Göteborgs universitet använder vi kakor (cookies) för att webbplatsen ska fungera på ett bra sätt för dig. Genom att surfa vidare godkänner du att vi använder kakor.  Vad är kakor?