Till sidans topp

Sidansvarig: Webbredaktion
Sidan uppdaterades: 2012-09-11 15:12

Tipsa en vän
Utskriftsversion

From the paft to the fiit… - Göteborgs universitet Till startsida
Webbkarta
Till innehåll Läs mer om hur kakor används på gu.se

From the paft to the fiiture: A fully automatic NMT and word embeddings method for OCR post-correction

Paper i proceeding
Författare Mika Hämäläinen
Simon Hengchen
Publicerad i International Conference Recent Advances in Natural Language Processing, RANLP
ISSN 13138502
Publiceringsår 2019
Publicerad vid Institutionen för svenska språket
Språk en
Ämneskategorier Språkteknologi (språkvetenskaplig databehandling), Data- och informationsvetenskap

Sammanfattning

A great deal of historical corpora suffer from errors introduced by the OCR (optical character recognition) methods used in the digitization process. Correcting these errors manually is a time-consuming process and a great part of the automatic approaches have been relying on rules or supervised machine learning. We present a fully automatic unsupervised way of extracting parallel data for training a character-based sequence-to-sequence NMT (neural machine translation) model to conduct OCR error correction.

Sidansvarig: Webbredaktion|Sidan uppdaterades: 2012-09-11
Dela:

På Göteborgs universitet använder vi kakor (cookies) för att webbplatsen ska fungera på ett bra sätt för dig. Genom att surfa vidare godkänner du att vi använder kakor.  Vad är kakor?