Till sidans topp

Sidansvarig: Webbredaktion
Sidan uppdaterades: 2012-09-11 15:12

Tipsa en vän
Utskriftsversion

Estimating Language Relat… - Göteborgs universitet Till startsida
Webbkarta
Till innehåll Läs mer om hur kakor används på gu.se

Estimating Language Relationships from a Parallel Corpus. A Study of the Europarl Corpus

Paper i proceeding
Författare Taraka Rama
Lars Borin
Publicerad i NEALT Proceedings Series (NODALIDA 2011 Conference Proceedings)
Volym 11
Sidor 161-167
ISSN 1736-6305
Publiceringsår 2011
Publicerad vid Institutionen för svenska språket
Sidor 161-167
Språk en
Länkar hdl.handle.net/10062/17303
Ämnesord genetic linguistics, historical linguitics, language phylogeny
Ämneskategorier Språkteknologi (språkvetenskaplig databehandling), Lingvistik

Sammanfattning

Since the 1950s, linguists have been using short lists (40–200 items) of basic vocabulary as the central component in a methodology which is claimed to make it possible to automatically calculate genetic relationships among languages. In the last few years these methods have experienced something of a revival, in that more languages are involved, different distance measures are systematically compared and evaluated, and methods from computational biology are used for calculating language family trees. In this paper, we explore how this methodology can be extended in another direction, by using larger word lists automatically extracted from a parallel corpus using word alignment software. We present preliminary results from using the Europarl parallel corpus in this way for estimating the distances between some languages in the Indo-European language family.

Sidansvarig: Webbredaktion|Sidan uppdaterades: 2012-09-11
Dela:

På Göteborgs universitet använder vi kakor (cookies) för att webbplatsen ska fungera på ett bra sätt för dig. Genom att surfa vidare godkänner du att vi använder kakor.  Vad är kakor?