Till startsida
Webbkarta
Till innehåll Läs mer om hur kakor används på gu.se

Identification of Languages in Algerian Arabic Multilingual Documents

Proceeding
Författare Wafia Adouane
Simon Dobnik
Förlag Association for Computational Linguistics
Förlagsort Valencia, Spain
Publiceringsår 2017
Publicerad vid Institutionen för filosofi, lingvistik och vetenskapsteori
Språk en
Länkar aclweb.org/anthology/W17-1301
Ämneskategorier Datorlingvistik, Språkteknologi (språkvetenskaplig databehandling)

Sammanfattning

This paper presents a language identification system designed to detect the language of each word, in its context, in a multilingual documents as generated in social media by bilingual/multilingual communities, in our case speakers of Algerian Arabic. We frame the task as a sequence tagging problem and use supervised machine learning with standard methods like HMM and Ngram classifi- cation tagging. We also experiment with a lexicon-based method. Combining all the methods in a fall-back mechanism and introducing some linguistic rules, to deal with unseen tokens and ambiguous words, gives an overall accuracy of 93.14%. Finally, we introduced rules for language identification from sequences of recognised words.

Sidansvarig: Webbredaktion|Sidan uppdaterades: 2012-09-11
Dela:

På Göteborgs universitet använder vi kakor (cookies) för att webbplatsen ska fungera på ett bra sätt för dig. Genom att surfa vidare godkänner du att vi använder kakor.  Vad är kakor?