Till sidans topp

Sidansvarig: Webbredaktion
Sidan uppdaterades: 2012-09-11 15:12

Tipsa en vän
Utskriftsversion

Modelling large parallel … - Göteborgs universitet Till startsida
Webbkarta
Till innehåll Läs mer om hur kakor används på gu.se

Kontaktformulär








 


OBS! Vill du ha svar, ange e-post eller telefonnummer!




Modelling large parallel corpora: The Zurich Parallel Corpus Collection

Paper i proceeding
Författare Johannes Graën
Tannon Kew
Anastassia Shaitarova
Martin Volk
Publicerad i Proceedings of the Workshop on Challenges in the Management of Large Corpora (CMLC-7) 2019. Cardiff, 22nd July 2019 / Piotr Bański, Adrien Barbaresi, Hanno Biber, Evelyn Breiteneder, Simon Clematide, Marc Kupietz, Harald Lüngen, Caroline Iliadi (eds.)
Förlag Leibniz-Institut für Deutsche Sprache
Förlagsort Mannheim
Publiceringsår 2019
Publicerad vid Institutionen för svenska språket
Språk en
Länkar https://doi.org/10.14618/ids-pub-90...
Ämnesord parallel corpora corpus encoding corpus annotation corpus standardisation document alignment sentence alignment word alignment
Ämneskategorier Datorlingvistik

Sammanfattning

Text corpora come in many different shapes and sizes and carry heterogeneous annotations, depending on their purpose and design. The true benefit of corpora is rooted in their annotation and the method by which this data is encoded is an important factor in their interoperability. We have accumulated a large collection of multilingual and parallel corpora and encoded it in a unified format which is compatible with a broad range of NLP tools and corpus linguistic applications. In this paper, we present our corpus collection and describe a data model and the extensions to the popular CoNLL-U format that enable us to encode it.

Sidansvarig: Webbredaktion|Sidan uppdaterades: 2012-09-11
Dela:

På Göteborgs universitet använder vi kakor (cookies) för att webbplatsen ska fungera på ett bra sätt för dig. Genom att surfa vidare godkänner du att vi använder kakor.  Vad är kakor?