Till startsida
Webbkarta
Till innehåll Läs mer om hur kakor används på gu.se

Sparv: Språkbanken’s corpus annotation pipeline infrastructure

Konferensbidrag (offentliggjort, men ej förlagsutgivet)
Författare Lars Borin
Markus Forsberg
Martin Hammarstedt
Dan Rosén
Roland Schäfer
Anne Schumacher
Publicerad i SLTC 2016. The Sixth Swedish Language Technology Conference, Umeå University, 17-18 November, 2016
Publiceringsår 2016
Publicerad vid Institutionen för svenska språket
Språk en
Länkar www8.cs.umu.se/~johanna/sltc2016/ab...
Ämnesord corpus linguistics, lexical analysis, compound analysis, automatic annotation
Ämneskategorier Språkteknologi (språkvetenskaplig databehandling)

Sammanfattning

Sparv is Språkbanken's corpus annotation pipeline infrastructure. The easiest way to use the pipeline is from its web interface with a plain text document. The pipeline uses in-house and external tools on the text to segment it into sentences and paragraphs, tokenise, tag parts-of-speech, look up in dictionaries and analyse compounds. The pipeline can also be run using a web API with XML results, and it is run locally at Språkbanken to prepare the documents in Korp, our corpus search tool. While the most sophisticated support is for modern Swedish, the pipeline supports 15 languages.

Sidansvarig: Webbredaktion|Sidan uppdaterades: 2012-09-11
Dela:

På Göteborgs universitet använder vi kakor (cookies) för att webbplatsen ska fungera på ett bra sätt för dig. Genom att surfa vidare godkänner du att vi använder kakor.  Vad är kakor?