Länkstig

Egenutvecklat programmeringsspråk ska översätta Wikipedia till 300 språk

Aarne Ranta, professor på Institutionen för data- och informationsteknik, driver i samarbete med Wikimedia Foundation projektet Abstract Wikipedia. Syftet med projektet är att automatöversätta Wikipedias artiklar till nästan samtliga språk som ryms på Wikipedias plattform.

Med hjälp av GF, Grammatical Framework, som är ett översättningsverktyg och programmeringsspråk utvecklat av professor Ranta och hans forskargrupp, är målet att fler människor ska kunna ta del av artiklarna på Wikipedia.

Jag har siktet inställt på att vi inom Abstract Wikipedia så småningom ska kunna översätta till 300 olika språk, vilket nästan är samtliga språk som ryms på Wikipedias plattform, säger professor Ranta.

Originaltexterna som Abstract Wikipedia-projektet översätter skapas i första hand automatiskt från en faktadatabas, som heter Wikidata. Men kan också hantera texter skrivna av människor, något som gör texterna mer begripliga och läsbara.

Finns det inte en risk att texterna blir för standardiserade och ensidiga om alla översättningar baseras på en och samma originaltext?

Artiklarna på de olika språken är sammanlänkade, vilket möjliggör för att justeringar i texterna ärvs av sina systerartiklar på de andra språken. Samtidigt fungerar det på samma sätt som Wikipedia i stort, där texterna är levande och vem som helst kan göra ändringar och bidra med innehåll.

Enligt professor Ranta kan vissa typer av texter ha en fördel när de, som han beskriver det, ”skrivs av en robot”, det vill säga helt automatiskt utifrån faktadatabasen.

Vad finns det för fördelar med en text som tagits fram av en "robot"?

Den uppenbara fördelen är att vi då kan skapa texter snabbt och billigt på många språk samtidigt. Om texterna behöver följa ett visst mönster eller om faktagranskning och källhänvisning måste vara riktig, då kan fakta stämmas av mot källan på ett mer mekaniskt sätt än om en människa hade skrivit texten.

Texterna blir inte lika intressanta och livliga som när en människa skriver en text. Men en textrobot kan skapa stora delar av en text som kan vara tråkiga att skriva, men som sedan kan omformuleras  av en människa.

Vad bidrar det här projektet med?

Nyttan i det här projektet är det som kallas för ”Wikipedia vision” och innebär att man gör kunskapen tillgänglig för hela världen. Den mer indirekta nyttan är att de metoder som vi utvecklar kan användas för andra saker också. Man kan tänka sig att Wikipedia är bland det mest komplicerade man kan ta sig an, men om man klarar att göra det så kan man göra så mycket annat också.

Hur länge tror du att projektet kommer att pågå?

Det kommer att vara ett lika löpande projekt som Wikipedia själv. Det finns alltid något nytt som man kan utveckla. Det som är viktigt är att man börjar med något som kan ge resultat ganska snart, istället för att tänka att ”det här är ett jättestort projekt” som kan börja leverera resultat först efter fem år. Vi vill redan nu kunna leverera något som fungerar.

En prototyp som jag har tagit fram tillsammans med min kollega docent Krasimir Angelov, kan skapa texter på 24 språk. Vi har testat prototypen med olika typer av innehåll, såsom geografiska fakta och nobelpristagare och också fått bidrag från studenternas exjobb. I framtiden är det viktigt att vi kan involvera den stora Wikipedia-communityn genom att göra GF tillgänglig utan omfattande träning i tekniken.

 

Av: Agnes Ekstrand och Camilla Jara