Språkbanken Text: SuperLim förbättrar svensk språkteknologi och AI
Kort beskrivning
Med projektet SuperLim: en svensk testmängd för språkmodeller utvecklades 2021 en datasamling som kan användas för testning och utvärdering av svenska språkmodeller, som idag utgör viktiga baskomponenter i svensk språkteknologi och AI. Språkmodellerna har fått bred spridning och har börjat användas för att bygga språkteknologiska tillämpningar inom akademin såväl som inom privat och offentlig sektor. Med SuperLim 2.0, som löper över 2022, vidareutvecklas samlingen och kompletteras med viktiga tekniska lösningar som syftar till att frigöra samlingens potential. Projektet är ett samarbete mellan aktörer inom språkteknologi och artificiell intelligens.
Bakgrund
Svensk språkteknologi genomgår just nu ett transformativt genombrott i och med utvecklandet av storskaliga svenska språkmodeller. Dessa modeller har kapacitet att avsevärt förbättra prestandan för i stort sett alla typer av språkteknologiska tillämpningar för svenska språket. Eftersom algoritmer och implementationer är allmänt tillgängliga finns det redan flera svenska modeller färdiga och fler är på gång. Modellerna har redan fått en bred spridning och används för att bygga språkteknologiska tillämpningar inom akademin såväl som inom privat och offentlig sektor.
Data för att utvärdera svenska språkmodeller har länge varit bristfälliga, vilket har gjort det svårt att bedöma kvaliteten hos de modeller som nu utvecklas. Brist på svenska utvärderingsdata hindrar kvalitetsutveckling av svenska språkmodeller liksom förmågan att medvetandegöra och/eller motverka fördomar inbyggda i modellerna. Tidigare studier på engelska språkmodeller har nämligen visat att modellerna är känsliga för vilken data de tränas på: de fördomar som finns i träningsdata överförs till modellerna.
Projektbeskrivning
RISE, Kungliga biblioteket (KB), Språkbanken Text samt AI Sweden gjorde därför en gemensam insats för att ta fram svenska utvärderingsdata för språkmodeller under 2021. Utvärderingsdatan modellerades efter väletablerade och vetenskapligt utvärderade engelska förlagor, t.ex. (Super)GLUE. För utvärdering av den första generationens språkmodeller för svenska språket som tagits fram av bland andra KB och RISE, utvecklades därför SuperLim som en svensk motsvarighet av (Super)GLUE med flera av de utvärderingsuppgifter som finns med i den engelska förlagan.
Projekt SuperLim 2.0 pågår under 2022 och ska bidra med ytterligare tre komponenter till SuperLim för att kunna skapa och utvärdera språkmodeller. I SuperLim 2.0 kompletteras första versionen av SuperLim med träningsdata som behövs för att kunna skapa olika språkteknologiska system och möjliggöra jämförelser mellan dessa. SuperLim 2.0 utvecklar också en referensimplementation, som kan fungera som utgångspunkt för att kunna jämföra modellerna med varandra och förbättra dem. Därtill möjliggöra SuperLim 2.0 att forskare kan publicera sina resultat på en ledartavla, för att därmed skapa en möjlighet att jämföra olika svenska språkmodeller för att på så vis kunna följa utvecklingen av dem.
Samarbetspartners
RISE, Kungliga biblioteket (KB), Språkbanken och AI Sweden.
Publikationer
2020
Yvonne Adesam, Aleksandrs Berdicevskis, Felix Morger (2020): SwedishGLUE – Towards a Swedish Test Set for Evaluating Natural Language Understanding Models
Projektmedlemmar
Markus Forsberg
Aleksandrs (Sasha) Berdicevskis
Gerlof Bouma
Felix Morger
Anna Lindahl
Dana Dannélls
Magnus Sahlgren
Love Börjeson
Francisca Hoyer