SweLL - forskningsinfrastruktur för svenska som andra²õ±è°ùÃ¥°ì
Kort beskrivning
SweLL syftar till att skapa en plattform för att samla in, digitalisera, normalisera, lingvistiskt annotera och elektroniskt tillgängliggöra texter skrivna av inlärare av svenska. En sÃ¥dan textsamling skulle möjliggöra sökningar efter ²õ±è°ùÃ¥°ìliga strukturer som utmärker inlärar²õ±è°ùÃ¥°ì, med en normaliserad version till ett urval av texter. För andra ²õ±è°ùÃ¥°ì finns flera andra²õ±è°ùÃ¥°ìskorpusar, men de är en bristvara för svenskans del.
Projektbeskrivning
Forskning inom svenska som andra²õ±è°ùÃ¥°ì (L2) har under de senaste Ã¥ren fÃ¥tt allt större betydelse, bl.a. i samband med den aktuella flyktingsituationen i Sverige och hela Europa. Detta avspeglas i regeringens beslut att genom Skolverket satsa pÃ¥ Nyanländas ±ôä°ù²¹²Ô»å±ð med ett mÃ¥l att ta fram bedömningsmaterial för svenska.
SweLL syftar till att skapa en plattform för att samla in, digitalisera, normalisera, lingvistiskt annotera och elektroniskt tillgängliggöra texter skrivna av inlärare av svenska. En sÃ¥dan textsamling skulle möjliggöra sökningar efter ²õ±è°ùÃ¥°ìliga strukturer som utmärker inlärar²õ±è°ùÃ¥°ì, med en normaliserad version till ett urval av texter. För andra ²õ±è°ùÃ¥°ì finns flera andra²õ±è°ùÃ¥°ìskorpusar, men de är en bristvara för svenskans del.
Behovet av en sÃ¥dan infrastruktur är uttalat inom flera omrÃ¥den inom andra²õ±è°ùÃ¥°ìsforskning: lexikonstudier behöver L2 material för att kunna besvara frÃ¥gor om hur ordförrÃ¥det utvecklas, studier om syntax behöver material för att verifiera hypoteser frÃ¥n experimentella studier, osv.
För att tillgodose bl.a. dessa behov syftar SweLL till att skapa en infrastruktur som består av:
- en portal för datainsamling, både för import från filer och via online övningar
- verktyg för analys av inlärar²õ±è°ùÃ¥°ì
- en L2-korpus på ca 600 texter annoterade med bl.a. fel
- sökmöjligheter för L2-material, såsom sökningar på behärskningsnivåer och grammatiska strukturer
Materialet och verktyg kommer att tillgängliggöras genom ³§±è°ùÃ¥°ìbanken.
Deltagare
Projektledare: , ³§±è°ùÃ¥°ìbanken, Göteborgs universitet
Fyra svenska universitet deltar i projektet:
- Göteborgs universitet: , ,
- Uppsala universitet:
- Stockholms universitet: ,
- ±«³¾±ðÃ¥ universitet: Lena Granstedt
Publikationer
2019
- Elena Volodina, Lena Granstedt, Arild Matsson, Beáta Megyesi, Ildikó Pilán, Julia Prentice, Dan Rosén, Lisa Rudebeck, Carl-Johan Schenström, Gunlög Sundberg and Mats Wirén (Accepted). The SweLL Language Learner Corpus: From Design to Annotation. Northern European Journal of Language Technology, Special Issue.
- Egon W. Stemle, Adriane Boyd, Maarten Janssen, Therese Lindström Tiedemann, Nives Mikelić Preradović, Alexandr Rosen, Dan Rosén, Elena Volodina. (2019) Working together towards an ideal infrastructure for language learner corpora. Learner Corpus Research 2017. In Andrea Abel, Aivars Glaznieks, Verena Lyding & Lionel Nicolas (eds.) Widening the Scope of Learner Corpus Research. Selected papers from the fourth Learner Corpus Research Conference. Corpora and Language in Use – Proceedings 5, Louvain-la-Neuve: Presses universitaires de Louvain, 427-468. []
- Wirén Mats, Arild Matsson, Dan Rosén, Elena Volodina. 2019. SVALA: Annotation of Second-Language Learner Text Based on Mostly Automatic Alignment of Parallel Corpora. CLARIN-2018 post-conference volume. LiUP Press. []
- David Alfter, Lars Borin, Ildikó Pilán, Therese Lindström Tiedemann, Elena Volodina. 2019. From Language Learning Platform to Infrastructure for Research on Language Learning. CLARIN-2018 post-conference volume. LiUP Press. []
- Elena Volodina, Arild Matsson, Dan Rosén and Mats Wirén. 2019. SVALA: an Annotation Tool for Learner Corpora generating parallel texts. Learner Corpus Research conference (LCR-2019). Proceedings.
2018
- Beáta Megyesi, Sofia Johansson, Dan Rosén,Carl-Johan Schenström, Gunlög Sundberg, Mats Wirén & Elena Volodina. (2018). Learner Corpus Anonymization in the Age of GDPR: Insights from the Creation of a Learner Corpus of Swedish. Proceedings of the 7th NLP4CALL workshop. []
- Elena Volodina, Lena Granstedt, Beáta Megyesi, Julia Prentice, Dan Rosén, Carl-Johan Schenström, Gunlög Sundberg & Mats Wirén. (2018). Annotation of learner corpora: first SweLL insights. Proceedings of SLTC-2018, Stockholm, Sweden []
- Dan Rosén, Mats Wirén and Elena Volodina. (2018). Error Coding of Second-Language Learner Texts Based on Mostly Automatic Alignment of Parallel Corpora. Clarin-2018. []
- Elena Volodina, Maarten Janssen, Therese Lindström Tiedemann, Nives Mikelic Preradovic, Silje Karin Ragnhildstveit, Kari Tenfjord and Koenraad de Smedt. (2018) Interoperability of Second Language Resources and Tools. Clarin-2018.
- Pilán, Ildikó, & Volodina, Elena. (2018). Exploring word embeddings and phonological similarity for the unsupervised correction of language learner errors. In Proceedings of the Second Joint SIGHUM Workshop on Computational