Bild
Chatrine-Qwaider, doktorand i datalingvistik
Foto: Monica Havström
Länkstig

Chatrine Qwaider: Resources and Applications for Dialectal Arabic: the Case of Levantine

Kultur & språk

Avhandling för filosofie doktorsexamen i ämnet datalingvistik vid Humanistiska fakulteten, Institutionen för filosofi, lingvistik och vetenskapsteori.

Disputation
Datum
25 maj 2022
Tid
15:00 - 19:00
Plats
sal J439, Humanisten, Renströmsgatan 6 och på zoom
Ytterligare information
Zoomlänk för
disputationen

Arrangör
Institutionen för filosofi, lingvistik och vetenskapsteori

Ämne: Datalingvistik

Avhandlingens titel: Resources and Applications for Dialectal Arabic: the Case of Levantine

Betygsnämnd:
Professor Mona Diab, George Washington University
Docent Yves Scherrer, Helsingfors universitet
Docent Peter Ljunglöf, Göteborgs universitet

Ersättare vid förfall för ledamot i betygsnämnden är:
1. Professor Sally Boyd, Göteborgs universitet
2. Docent Dana Dannélls, Göteborgs universitet

Opponent: Doktor Muhammad Abdul-Mageed, University of British Columbia

Ordförande: Docent Christine Howes, Göteborgs universitet

Abstract

Denna uppsats är en serie av datorlingvistiska studier av Dialektal Arabiska (DA). Jag undersöker DA, med fokus på Levantinska Arabiska och utveck- lar verktyg samt resurser för datorlingvistiska studier av dialektal Arabiska (DANLP). I uppsatsen undersöker vi resurser som kan användas i många olika syften, och datormodeller som kan hantera komplex dialektal Ara- biska. Studierna som presenteras undersöker dialektidentifikation (DI) och sentiment analysis (SA).

I den första delen (Studie 1 och 2) studerar vi DI både på en generisk och specifik nivå. För detta bygger vi SHAMI-korpuset. Den första studien undersöker denna korpus med en språkmodell baserad på n-gram och sammansättning av modeller för att klassificera 26 olika Arabiska dialekter. I den andra delen gör vi en lingvistisk analys för att mäta lexikal distans mellan Modern Standardarabiska (MSA) och dialektal Arabiska samt mellan de olika arabilska dialekterna. Detta görs för att undersöka huruvida vi kan föra över kunskap från en dialekt till en annan dialekt. I den andra delen (studie 3, 4, och 5) undersöker vi sentimentanalys. Vi undersöker och det går att överföra kunskap mellan MSA och andra Arabiska dialekter som en fallstudie Jag implementerar även flera olika maskininlärnings modeller, så som BERT, och undersöker huruvida särdragstekniker kan användas för att predikera polaritet hos sentiment för dialektal Arabiska.

Jag introducerar två resurser för detta, en som fokuserar på sentiment i Levantinska dialekter (Shami-Senti) och en annan för andra Arabiska dialekter (ATSAD). Jag använder mig av olika annoteringstekniker: mänskliga annoterare, ordböcker, och automatisk distans övervakning. Den sista studien handlar om hur vi kan välja den bästa modellen för DI och SA. Vi undersöker kända modeller och tekniker för detta och utnyttjar olika DA resurser.
Denna uppsats bidrar till fältet DANLP på många sätt. Vi introducerar ett antal värdefulla resurser för dialektal Arabiska som kan ses som ett första steg mot djupare undersökningar för forskning inom DANLP. Resurserna är också robusta och kan användas för många olika uppgifter inom datorlingvistik. De kors-dialektala lingvistiska studierna öppnar upp för forskning inom justering av förtränade modellers samt överförande av kunskap från en dialekt till en annan. En stor del av mitt bidrag ligger i designen av olika modeller för DI och SA.

Jag implementerar flera olika modellers som använder särdragstekniker och n-grams språkmodeller som kan identifiera arabisk dialekt och sentiment. För DI så designar jag och implementerar en sammansättnings modell som kan hantera dialekter på detaljnivå. Yttligare så använder jag mig av djupinlärnings modeller för di- alektal arabisk sentimentanalys och får bra resultat. För både DI och SA så använder jag mig av tränade språkmodeller och utvärderar dem för att välja den bästa modellen. Jag implementerar även en lätt-övervakad modell för automatisk annotering med hjälp av själv-övervakade tekniker som förbättrar resultatet för korpuset. Dessa modeller kan hjälpa forskare att dyka djupare in i DANLP för att skapa praktiska och industriella system.

Länk till avhandlingen