Till sidans topp

Sidansvarig: Webbredaktion
Sidan uppdaterades: 2012-09-11 15:12

Tipsa en vän
Utskriftsversion

Poor man's OCR post-corre… - Göteborgs universitet Till startsida
Webbkarta
Till innehåll Läs mer om hur kakor används på gu.se

Poor man's OCR post-correction: Unsupervised recognition of variant spelling applied to a multilingual document collection

Paper i proceeding
Författare Harald Hammarström
Shafqat Virk
Markus Forsberg
Publicerad i DATeCH2017, Proceedings of the 2nd International Conference on Digital Access to Textual Cultural Heritage, Göttingen, Germany — June 01 - 02, 2017
ISBN 978-1-4503-5265-9
Förlag Association for Computing Machinery (ACM)
Förlagsort New York
Publiceringsår 2017
Publicerad vid Institutionen för svenska språket
Språk en
Länkar dx.doi.org/10.1145/3078081.3078107
Ämnesord Multilingual, OCR, Unsupervised
Ämneskategorier Språk och litteratur

Sammanfattning

© 2017 Copyright held by the owner/author(s). The accuracy of Optical Character Recognition (OCR) is sets the limit for the success of subsequent applications used in text analyzing pipeline. Recent models of OCR postprocessing significantly improve the quality of OCR-generated text but require engineering work or resources such as humanlabeled data or a dictionary to perform with such accuracy on novel datasets. In the present paper we introduce a technique for OCR post-processing that runs off-the-shelf with no resources or parameter tuning required. In essence, words which are similar in form that are also distributionally more similar than expected at random are deemed OCR-variants. As such it can be applied to any language or genre (as long as the orthography segments the language at the word-level). The algorithm is illustrated and evaluated using a multilingual document collection and a benchmark English dataset.

Sidansvarig: Webbredaktion|Sidan uppdaterades: 2012-09-11
Dela:

På Göteborgs universitet använder vi kakor (cookies) för att webbplatsen ska fungera på ett bra sätt för dig. Genom att surfa vidare godkänner du att vi använder kakor.  Vad är kakor?