Chatrine-Qwaider, doktorand i datalingvistik — Foto: Monica Havström

Chatrine Qwaider: Resources and Applications for Dialectal Arabic: the Case of Levantine

Kultur & språk

Avhandling för filosofie doktorsexamen i ämnet datalingvistik vid Humanistiska fakulteten, Institutionen för filosofi, lingvistik och vetenskapsteori.

Disputation

Datum

25 maj 2022

Tid

15:00 - 19:00

Plats

sal J439, Humanisten, Renströmsgatan 6 och på zoom

Ytterligare information

Zoomlänk för disputationen

Arrangör

Institutionen för filosofi, lingvistik och vetenskapsteori

Ämne: Datalingvistik

Avhandlingens titel: Resources and Applications for Dialectal Arabic: the Case of Levantine

Betygsnämnd:
Professor Mona Diab, George Washington University
Docent Yves Scherrer, Helsingfors universitet
Docent Peter Ljunglöf, Göteborgs universitet

Ersättare vid förfall för ledamot i betygsnämnden är:
1. Professor Sally Boyd, Göteborgs universitet
2. Docent Dana Dannélls, Göteborgs universitet

Opponent: Doktor Muhammad Abdul-Mageed, University of British Columbia

Ordförande: Docent Christine Howes, Göteborgs universitet

Abstract

Denna uppsats är en serie av datorlingvistiska studier av Dialektal Arabiska (DA). Jag undersöker DA, med fokus på Levantinska Arabiska och utvecklar verktyg samt resurser för datorlingvistiska studier av dialektal arabiska (DANLP). I uppsatsen undersöker vi resurser som kan användas i många olika syften, och datormodeller som kan hantera komplex dialektal arabiska. Studierna som presenteras undersöker dialektidentifikation (DI) och sentiment analysis (SA).

I den första delen (Studie 1 och 2) studerar vi DI både på en generisk och specifik nivå. För detta bygger vi SHAMI-korpuset. Den första studien undersöker denna korpus med en språkmodell baserad på n-gram och sammansättning av modeller för att klassificera 26 olika arabiska dialekter. I den andra delen gör vi en lingvistisk analys för att mäta lexikal distans mellan modern standardarabiska (MSA) och dialektal arabiska samt mellan de olika arabilska dialekterna. Detta görs för att undersöka huruvida vi kan föra över kunskap från en dialekt till en annan dialekt. I den andra delen (studie 3, 4, och 5) undersöker vi sentimentanalys. Vi undersöker och det går att överföra kunskap mellan MSA och andra arabiska dialekter som en fallstudie Jag implementerar även flera olika maskininlärnings modeller, så som BERT, och undersöker huruvida särdragstekniker kan användas för att predikera polaritet hos sentiment för dialektal arabiska.

Jag introducerar två resurser för detta, en som fokuserar på sentiment i Levantinska dialekter (Shami-Senti) och en annan för andra arabiska dialekter (ATSAD). Jag använder mig av olika annoteringstekniker: mänskliga annoterare, ordböcker, och automatisk distans övervakning. Den sista studien handlar om hur vi kan välja den bästa modellen för DI och SA. Vi undersöker kända modeller och tekniker för detta och utnyttjar olika DA resurser.
Denna uppsats bidrar till fältet DANLP på många sätt. Vi introducerar ett antal värdefulla resurser för dialektal arabiska som kan ses som ett första steg mot djupare undersökningar för forskning inom DANLP. Resurserna är också robusta och kan användas för många olika uppgifter inom datorlingvistik. De kors-dialektala lingvistiska studierna öppnar upp för forskning inom justering av tränade modeller samt överförande av kunskap från en dialekt till en annan. En stor del av mitt bidrag ligger i designen av olika modeller för DI och SA.

Jag implementerar flera olika modellers som använder särdragstekniker och n-grams språkmodeller som kan identifiera arabisk dialekt och sentiment. För DI så designar jag och implementerar en sammansättnings modell som kan hantera dialekter på detaljnivå. Vidare så använder jag mig av djupinlärnings modeller för di- alektal arabisk sentimentanalys och får bra resultat. För både DI och SA så använder jag mig av tränade språkmodeller och utvärderar dem för att välja den bästa modellen. Jag implementerar även en lättövervakad modell för automatisk annotering med hjälp av självövervakade tekniker som förbättrar resultatet för korpuset. Dessa modeller kan hjälpa forskare att dyka djupare in i DANLP för att skapa praktiska och industriella system.

Länk till avhandlingen

Senast ändrad

30 maj 2022