Länkstig

Ny teknik gör det lättare att identifiera förfalskade texter

Ny teknik har gett oss nya möjligheter, och nya behov av, att analysera och klassificera text, med avseende på vem eller vilka som har skrivit den. Runt tio tusen ord behövs för att ha en rimlig chans att identifiera en skribent. Detta skriver Niklas Zechner, forskare på Språkbanken på institutionen för svenska språket, i en artikel i Språktidningen.

Bild
Niklas Zechner
Niklas Zechner, forskare på Språkbanken, institutionen för svenska språket, Göteborgs universitet
Foto: Sven Lindström

En dator kan analysera stora mängder text, många miljoner ord, för att bygga upp statistiska modeller av hur olika grupper skriver. På detta sätta kan man till exempel räkna hur ofta vissa ord eller grammatiska konstruktioner används och sedan använda detta för att automatiskt säga något om en text med anonym skribent. Tillvägagångssättet går sedan att använda för att bekämpa brott, lösa tvister om plagiat och upphovsrätt, och avslöja förfalskningar.

En del forskning har gett oväntat positiva resultat, och forskare har hävdat att man med stor säkerhet kan identifiera en person även bland tusentals möjliga författare. Man behöver inte heller använda särskilt avancerade metoder – en del har inte ens tittat på ord, utan helt enkelt gått efter hur ofta en författare använder olika bokstäver. Men tekniken och forskningen är fortfarande i sin linda och resultaten är inte alltid testade så väl.

- Det finns en hel del kvar att göra i arbetet med att automatiskt klassificera texter. I dag är det framför allt enklare sysslor som kan skötas med tekniken – sådant som människor enkelt skulle kunna göra, men som ändå är praktiskt att överlåta till datorn. Det kan vara att filtrera skräppost eller ovälkomna inlägg på internetforum, eller att identifiera vilket språk en text är skriven på, säger Niklas Zechner

Läs hela artikeln i Språktidningen