Till startsida
Webbkarta
Till innehåll Läs mer om hur kakor används på gu.se

Identification of Languages in Algerian Arabic Multilingual Documents

Paper i proceeding
Författare Wafia Adouane
Simon Dobnik
Publicerad i Proceedings of The Third Arabic Natural Language Processing Workshop (WANLP), Valencia, Spain, April 3, 2017
ISBN 978-1-945626-44-9
Förlag Association for Computational Linguistics
Förlagsort Valencia, Spain
Publiceringsår 2017
Publicerad vid Institutionen för filosofi, lingvistik och vetenskapsteori
Språk en
Länkar aclweb.org/anthology/W17-1301
Ämneskategorier Språkteknologi (språkvetenskaplig databehandling), Datorlingvistik

Sammanfattning

This paper presents a language identification system designed to detect the language of each word, in its context, in a multilingual documents as generated in social media by bilingual/multilingual communities, in our case speakers of Algerian Arabic. We frame the task as a sequence tagging problem and use supervised machine learning with standard methods like HMM and Ngram classifi- cation tagging. We also experiment with a lexicon-based method. Combining all the methods in a fall-back mechanism and introducing some linguistic rules, to deal with unseen tokens and ambiguous words, gives an overall accuracy of 93.14%. Finally, we introduced rules for language identification from sequences of recognised words.

Sidansvarig: Webbredaktion|Sidan uppdaterades: 2012-09-11
Dela:

På Göteborgs universitet använder vi kakor (cookies) för att webbplatsen ska fungera på ett bra sätt för dig. Genom att surfa vidare godkänner du att vi använder kakor.  Vad är kakor?