Till sidans topp

Sidansvarig: Webbredaktion
Sidan uppdaterades: 2012-09-11 15:12

Tipsa en vän
Utskriftsversion

Construction and Annotati… - Göteborgs universitet Till startsida
Webbkarta
Till innehåll Läs mer om hur kakor används på gu.se

Construction and Annotation of a Corpus of Contemporary Nepali

Artikel i vetenskaplig tidskrift
Författare Y.P. Yadava
A. Hardie
R.R. Lohani
B.N. Regmi
S. Gurung
A. McEnery
Jens Allwood
P Hall
A Gurung
Publicerad i Corpora
Volym 3
Sidor 213-225
ISSN 1749-5032
Publiceringsår 2008
Publicerad vid Institutionen för lingvistik
Kollegium SSKKII (-2009)
Sidor 213-225
Språk en
Länkar dx.doi.org/10.3366/E174950320800016...
https://gup.ub.gu.se/file/112040
Ämneskategorier Humaniora, Språkstudier

Sammanfattning

In this paper, we describe the construction of the 14-million-word Nepali National Corpus (NNC). This corpus includes both spoken and written data, the latter incorporating a Nepali match for FLOB and a broader collection of text. Additional resources within the NNC include parallel data (English–Nepali and Nepali–English) and a speech corpus. The NNC is encoded as Unicode text and marked up in CES-compatible XML. The whole corpus is also annotated with part-of-speech tags. We describe the process of devising a tagset and retraining tagger software for the Nepali language, for which there were no existing corpus resources. Finally, we explore some present and future applications of the corpus, including lexicography, NLP, and grammatical research.

Sidansvarig: Webbredaktion|Sidan uppdaterades: 2012-09-11
Dela:

På Göteborgs universitet använder vi kakor (cookies) för att webbplatsen ska fungera på ett bra sätt för dig. Genom att surfa vidare godkänner du att vi använder kakor.  Vad är kakor?