91̽»¨

³¢Ã¤²Ô°ì²õ³Ù¾±²µ

Ny teknik gör det lättare att identifiera förfalskade texter

Ny teknik har gett oss nya möjligheter, och nya behov av, att analysera och klassificera text, med avseende pÃ¥ vem eller vilka som har skrivit den. Runt tio tusen ord behövs för att ha en rimlig chans att identifiera en skribent. Detta skriver Niklas Zechner, forskare pÃ¥ ³§±è°ùÃ¥°ìbanken pÃ¥ institutionen för svenska ²õ±è°ùÃ¥°ìet, i en artikel i ³§±è°ùÃ¥°ìtidningen.

Bild
Niklas Zechner
Niklas Zechner, forskare pÃ¥ ³§±è°ùÃ¥°ìbanken, institutionen för svenska ²õ±è°ùÃ¥°ìet, Göteborgs universitet
Foto: Sven Lindström

En dator kan analysera stora mängder text, många miljoner ord, för att bygga upp statistiska modeller av hur olika grupper skriver. På detta sätta kan man till exempel räkna hur ofta vissa ord eller grammatiska konstruktioner används och sedan använda detta för att automatiskt säga något om en text med anonym skribent. Tillvägagångssättet går sedan att använda för att bekämpa brott, lösa tvister om plagiat och upphovsrätt, och avslöja förfalskningar.

En del forskning har gett oväntat positiva resultat, och forskare har hävdat att man med stor säkerhet kan identifiera en person även bland tusentals möjliga författare. Man behöver inte heller använda särskilt avancerade metoder – en del har inte ens tittat på ord, utan helt enkelt gått efter hur ofta en författare använder olika bokstäver. Men tekniken och forskningen är fortfarande i sin linda och resultaten är inte alltid testade så väl.

- Det finns en hel del kvar att göra i arbetet med att automatiskt klassificera texter. I dag är det framför allt enklare sysslor som kan skötas med tekniken – sÃ¥dant som människor enkelt skulle kunna göra, men som ändÃ¥ är praktiskt att överlÃ¥ta till datorn. Det kan vara att filtrera skräppost eller ovälkomna inlägg pÃ¥ internetforum, eller att identifiera vilket ²õ±è°ùÃ¥°ì en text är skriven pÃ¥, säger Niklas Zechner