Till sidans topp

Sidansvarig: Webbredaktion
Sidan uppdaterades: 2012-09-11 15:12

Tipsa en vän
Utskriftsversion

Quantifying the impact of… - Göteborgs universitet Till startsida
Webbkarta
Till innehåll Läs mer om hur kakor används på gu.se

Quantifying the impact of dirty OCR on historical text analysis: Eighteenth Century Collections Online as a case study

Artikel i vetenskaplig tidskrift
Författare Mark J. Hill
Simon Hengchen
Publicerad i Digital Scholarship in the Humanities
Volym 34
Nummer/häfte 4
Sidor 825-843
ISSN 2055-7671
Publiceringsår 2019
Publicerad vid
Sidor 825-843
Språk en
Länkar https://doi.org/10.1093/llc/fqz024
Ämneskategorier Annan humaniora, Data- och informationsvetenskap

Sammanfattning

This article aims to quantify the impact optical character recognition (OCR) has on the quantitative analysis of historical documents. Using Eighteenth Century Collections Online as a case study, we first explore and explain the differences between the OCR corpus and its keyed-in counterpart, created by the Text Creation Partnership. We then conduct a series of specific analyses common to the digital humanities: topic modelling, authorship attribution, collocation analysis, and vector space modelling. The article concludes by offering some preliminary thoughts on how these conclusions can be applied to other datasets, by reflecting on the potential for predicting the quality of OCR where no ground-truth exists.

Sidansvarig: Webbredaktion|Sidan uppdaterades: 2012-09-11
Dela:

På Göteborgs universitet använder vi kakor (cookies) för att webbplatsen ska fungera på ett bra sätt för dig. Genom att surfa vidare godkänner du att vi använder kakor.  Vad är kakor?