GU-ISS Forskningsrapporter från Institutionen för svenska, flerspråkighet och språkteknologi (2011-)

Permanent URI for this collectionhttps://gupea-staging.ub.gu.se/handle/2077/27843

Browse

Recent Submissions

Now showing 1 - 20 of 40
  • Item
    Sparv 5.3.0: Språkbanken's Analysis Platform – Technical Report
    (Institutionen för svenska, flerspråkighet och språkteknologi, 2025-10-06) Hammarstedt, Martin; Schumacher, Anne; Borin, Lars; Forsberg, Markus
    Sparv is a powerful command line tool designed for annotating text with a wide range of linguistic annotations. Developed by Språkbanken Text, Sparv provides a comprehensive solution for text analysis, supporting various source formats, annotations, and export formats. This technical report contains a user manual and a developer's guide. The user manual covers installation, configuration, and usage of Sparv for text annotation. The developer’s guide explains Sparv’s plugin system and provides instructions for extending the platform with custom plugins.
  • Item
    An overview of Grammatical Error Correction for the twelve MultiGEC-2025 languages
    (2025-01-31) Masciolini, Arianna; Caines, Andrew; De Clercq, Orphée; Kruijsbergen, Joni; Kurfalı, Murathan; Muñoz Sánchez, Ricardo; Volodina, Elena; Östling, Robert; Allkivi, Kais; Arhar Holdt, Špela; Auzin̦a, Ilze; Darģis, Roberts; Drakonaki, Elena; Frey, Jennifer-Carmen; Glišic, Isidora; Kikilintza, Pinelopi; Nicolas, Lionel; Romanyshyn, Mariana; Rosen, Alexandr; Rozovskaya, Alla; Suluste, Kristjan; Syvokon, Oleksiy; Tantos, Alexandros; Touriki, Despoina-Ourania; Tsiotskas, Konstantinos; Tsourilla, Eleni; Varsamopoulos, Vassilis; Wisniewski, Katrin; Žagar, Aleš; Zesch, Torsten; Språkbanken Text, SFS, University of Gothenburg, Sweden; University of Cambridge, UK; Ghent University, Belgium; RISE Research Institutes of Sweden, Sweden; Stockholm University, Sweden; Tallinn University, Estonia; University of Ljubljana, Slovenia; IMCS at the University of Latvia, Latvia; Aristotle University of Thessaloniki, Greece; Eurac Research Bolzano, Italy; University of Iceland, Iceland; Grammarly; Charles University, Czech Republic; City University of New York (CUNY), USA; Institute of the Estonian Language, Estonia; Microsoft; Leipzig University, Germany; FernUniversität in Hagen, Germany
    This overview is complementary to the comprehensive dataset description article for MultiGEC – a dataset for Multilingual Grammatical Error Correction including data for twelve European languages: Czech, English, Estonian, German, Greek, Icelandic, Italian, Latvian, Russian, Slovene, Swedish and Ukrainian. It is well-known that in the field of Natural Language Processing (NLP) most publications tend to focus on the English language. While this is due to historical reasons (ease of publication, greater outreach, increased number of citations, etc.), it does leave other languages at a disadvantage across multiple tasks. The MultiGEC dataset was created as an attempt to counteract this effect. This report provides a historical overview of the evolution of GEC for each of the twelve languages in this dataset and provides a context for the work on the dataset and the related MultiGEC-2025 shared task.
  • Item
    LIVE and LEARN - Festschrift in honor of Lars Borin
    (2022-11) Volodina, Elena; Dannélls, Dana; Berdicevskis, Aleksandrs; Forsberg, Markus; Virk, Shafqat; Institutionen för svenska, flerspråkighet och språkteknologi, Göteborgs universitet
    This Festschrift has been compiled to honor Professor Lars Borin on his 65th anniversary. It consists of 30 articles which reflect a fraction of Lars’ scholarly interests within computational linguistics and related fields. They come from his friends and colleagues around the world and deal with topics that have been – in one way or another – inspired by his work. A common theme for the articles is the never-ending need to learn, which is alluded to in the title of the volume, Live and Learn.
  • Item
    Sparv 5 User Manual
    (2022-09-12) Hammarstedt, Martin; Schumacher, Anne; Borin, Lars; Forsberg, Markus; Institutionen för svenska, flerspråkighet och språkteknologi, Göteborgs universitet
    The Sparv Pipeline developed by Språkbanken Text is a text analysis tool run from the command line. This user manual describes how to get Sparv 5 up and running on your own machine, how to configure it and how to use it for annotating your own corpora.
  • Item
    Sparv 5 Developer’s Guide
    (2022-09-12) Hammarstedt, Martin; Schumacher, Anne; Borin, Lars; Forsberg, Markus; Institutionen för svenska, flerspråkighet och språkteknologi, Göteborgs universitet
    The Sparv Pipeline developed by Språkbanken Text is a text analysis tool run from the command line. This Developer’s Guide describes its general structure and key concepts and serves as an API documentation. Most importantly, it describes how to write plugins for Sparv 5 so that you can add your own functions to the toolkit.
  • Item
    SweLL correction annotation guidelines
    (2021-08-24) Rudebeck, Lisa; Sundberg, Gunlög
  • Item
    SweLL normalization guidelines
    (2021-08-24) Rudebeck, Lisa; Sundberg, Gunlög; Wirén, Mats
  • Item
    SweLL pseudonymization guidelines
    (2021-08-24) Megyesi, Beáta; Rudebeck, Lisa; Volodina, Elena
  • Item
    SweLL transcription guidelines, L2 essays
    (2021-08-24) Volodina, Elena; Megyesi, Beáta
  • Item
    SwedishGLUE – Towards a Swedish Test Set for Evaluating Natural Language Understanding Models
    (Institutionen för svenska språket, 2020-12-11) Adesam, Yvonne; Berdicevskis, Aleksandrs; Morger, Felix
  • Item
    Person med levd erfarenhet av funktionsnedsättning, funktionsnedsatt person eller handikappad? En diskursanalytisk korpusstudie av språklig kategorisering av människor i ett funkisaktivistiskt sammanhang
    (2020-08-12) Thorselius, Eva
    Hur vi uppfattar andra människor kan härledas till sättet vi väljer att prata om dem. Språket hjälper till att konstruera idéer, föreställningar och fördomar om olika grupper i samhället. Vissa grupper med tillhörande egenskaper blir till normen, medan andra grupper som inte har dessa normerade egenskaper kan bli marginaliserade och diskriminerade. Exempelvis om en person eller grupp alltid benämns efter dess funktionsnedsättning, finns risken att den uppfattas som hela deras identitet och att personerna bakom blir sekundära. Men hur marginaliserade grupper benämner sig själva och varandra, där de får konstruera vad de språkligt vill – eller inte vill framhäva med sig själva är intressant att studera ur ett kritiskt, språkvetenskapligt perspektiv. Den här studien är en kritisk diskursanalys av texter skrivna av aktivist- och intresseorganisationer för personer med funktionsnedsättning. Det är därmed den här studiens syfte att undersöka hur kategoriseringen av människor i förhållande till funktionsnedsättning ser ut. Studien visar att det i enlighet med den mediala benämningspraktiken är person med funktionsnedsättning som är den överlägset vanligaste benämningen. Den visar även att flera benämningspraktiker utmanar vad det är som bör uppfattas som norm i kategoriseringen av människor i förhållande till funktionsnedsättning. Den dikotoma uppdelningen av grupper med respektive utan funktionsnedsättning är inte lika tydlig i aktivist- och intresseorganisationstexterna som i mediala texter, eftersom flera benämningspraktiker erbjuder ett något mer nyanserat spektrum av människors olika funktionsförmågor.
  • Item
    Alumnundersökning 2019. Språkkonsultprogrammet, Göteborgs universitet
    (2020-02-26) Karlsson, Susanna
    I den här rapporten återges resultatet från en enkätundersökning som genomfördes i december 2019 till och med januari 2020 och som riktade sig till alumner från kullarna 1–3 på Språkkonsultprogrammet, Göteborgs universitet. Enkäten gick ut till 46 personer som genomfört någon del av programmets sista termin. Av dessa valde 25 att delta. Deltagarna besvarade frågor om hur de har upplevt tiden efter examen, hur arbetssituationen ser ut i dag, samt hur de upplever programmet, nu när det har gått några år sedan examen. Det här är de allra viktigaste resultaten: • De vanligaste arbetsgivarna är kommuner och privata företag. • Vanligast är att inkomsten ligger i spannet 30 000–35 000 kr/månad. • Fyra av tio tycker det var lätt eller ganska lätt att hitta jobb att söka. • Hälften tycker det var lätt eller ganska lätt att få jobb. • Fyra av fem trivs med sitt arbete och upplever sig ha goda möjligheter att själva påverka sin arbetssituation. • 88 % av deltagarna arbetar och 4 % är arbetssökande; de övriga studerar. • 68 % hade arbete inom tre månader från examen; 52 % hade arbete direkt efter examen. • 80 % hade arbetat innan de påbörjade programmet; 76 % hade studerat. 60 % hade både arbetat och studerat innan de började på Språkkonsultprogrammet. • Utbildningen ger i hög grad färdigheter och förmågor som är relevanta för yrkeslivet. • Vissa saker som efterfrågas av arbetsgivare täcks inte in av programmets kursutbud. Det gäller i första hand digitala arbetssätt och grafisk formgivning. • Majoriteten är nöjda med sina upplevelser av studierna och studietiden. • Det finns ett intresse bland deltagarna för alumnaktiviteter och en stor vilja att medverka i programmets yrkeslivsförankrande aktiviteter. För frågor om undersökningen eller om Språkkonsultprogrammet: Susanna Karlsson, programkoordinator susanna.karlsson@svenska.gu.se Information om Språkkonsultprogrammet https://svenska.gu.se/utbildning/grundniva/sprakkonsultprogrammet
  • Item
    Tänkande och språk. En studie av Piaget och Vygotskij
    (2019-12-15) Fröjd, Per
    Sociokulturella teorier om lärande har blivit populära i Västvärlden. BFL och formativ bedömning är några metoder som används för att utveckla elever. Vygotskij är populär. Piaget är det inte; i synnerhet inte i den engelskspråkiga världen (Piaget 1962). Syftet i denna artikel är att närmare granska den sociokulturella tolkningen av både Piaget och Vygotskij. Sociokulturella teoretiker har negligerat kärnan i Vygotskijs och Piagets teori om tankeutveckling, förhållandet mellan språk och tanke liksom begreppsutveckling. Vygotskij och Piaget är liksom jag universalister och kognitiv-ister. Universella teorier om kunskapsutveckling hävdar att tankeutvecklingen följer universella mönster. Hade det inte funnits sådana mönster skulle inte världen fungera. Det matematiska språket är detsamma oberoende av den kulturella kontexten. π har alltid samma värde oberoende av var eller för vilket ändamål vi beräknar cirklar. En grundläggande teori om kunskap och lärande får naturligtvis konsekvenser för alla delar av utbildningssystemet. Dessutom har sociokulturella teo-retiker tillskrivit Vygotskij ha tillskrivits dialogism och kopplingen till Bakhtin.
  • Item
    Kvinnorna i Svenskt översättarlexikon. En ögonblicksbild utifrån översättningsvetenskapliga och metalexikografiska utgångspunkter
    (2019-06-20) Landqvist, Hans
    I den här rapporten redovisas en empirisk undersökning om de kvinnliga översättare som behandlas i den version av Svenskt översättarlexikon (SÖL) som var tillgänglig det första kvartalet 2017. Undersökningen bygger på den presentation som jag genomförde vid konferensen ”Den andra halvan av nationallitteraturen. Om översättningarnas plats i svensk litteratur-, språk- och kulturhistoria”. Konferensen arrangerades vid Stockholms universitet den 26 november 2016. Artiklar som bygger på presentationerna vid denna konferens, tillsammans med artiklar utifrån konferensen ”Världslitteraturen och dess svenska röster. Bidrag till svensk översättningshistoria”, arrangerad av Kungl. Vitterhetsakademien den 9 och 10 februari 2017, ska utkomma i en volym under redaktion av Lars Kleberg. I väntan på denna volym publicerar jag här en rapport som utgår från mitt bidrag vid konferensen ”Den andra halvan av nationallitteraturen. Om översättningarnas plats i svensk litteratur-, språk- och kulturhistoria”. Några partier av det ursprungliga bidraget ingår inte i rapporten, medan andra är mer utvecklade. När det gäller de utvecklade partierna handlar det för det första om principerna som kan tänkas ligga bakom utformningen av SÖL som helhet med tanke på vilka översättare som hittills ingår i, och vilka som kan tänkas få utrymme i, lexikonet. För det andra handlar det om vissa tillägg till konferensbidraget, vilka jag har gjort för att texten ska bli mera tillgänglig för läsare som inte har en förankring inom översättningsvetenskapens fält. Dessutom tillfogar jag här ett avsnitt om några möjligheter till fortsatt forskning utifrån SÖL och några andra elektroniska resurser vilka också uppmärksammar översättare. Eventuella synpunkter på rapporten är mycket välkomna!
  • Item
    Assessing the quality of Språkbanken’s annotations
    (2019-06-10) Ljunglöf, Peter; Zechner, Niklas; Nieto Piña, Luis; Adesam, Yvonne; Borin, Lars
    Most of the corpora in Språkbanken Text consist of unannotated plain text, such as almost all newspaper texts, social media texts, novels and official documents. We also have some corpora that are manually annotated in different ways, such as Talbanken (annotated for part-of-speech and syntactic structure), and the Stockholm Umeå Corpus (annotated for part-of-speech). Språkbanken's annotation pipeline Sparv aims to automatise the work of automatically annotating all our corpora, while still keeping the manual annotations intact. When all corpora are annotated, they can be made available, e.g., in the corpus searh tools Korp and Strix. Until now there has not been any comprehensive overview of the annotation tools and models that Sparv has been using for the last eight years. Some of them have not been updated since the start, such as the part-of-speech tagger Hunpos and the dependency parser MaltParser. There are also annotation tools that we still have not included, such as a constituency-based parser. Therefore Språkbanken initiated a project with the aim of conducting such an overview. This document is the outcome of that project, and it contains descriptions of the types of manual and automatic annotations that we currently have in Språkbanken, as well as an incomplete overview of the state-of-the-art with regards to annotation tools and models.
  • Item
    Initiala annex i en teckenbaserad konstruktionsgrammatik
    (2019-02-12) Strandberg, Viktoria
    Left-dislocations (Sw. initial dislokation ’initial dislocation’, ID) and hanging scenes (Sw. fritt initial annex som motsvarar ett fritt adverbial i den inre satsen ’free initial annex corresponding to a free adverbial in the main clause’, FIA) are both structures with a phrase preceding the main clause. While ID also has a pronominal copy, referring to that phrase, inside the main clause, no such copy is found in the main clause following FIA. This report investigates ID and FIA in a Construction Grammar framework, describing ID and FIA as constructions consisting of a form paired with an information structural meaning. An analysis of 295 instances of ID and FIA, most of them collected from spoken language, shows that ID can be construed in many ways, but that half of the instances of ID can be divided into three different construction patterns, where the following aspects are the same: the syntactic form of the ID and the pronominal copy, the syntactic function of the pronominal copy, the position of the pronominal copy, and the type of clause in which the pronominal copy occurs. In terms of information structure, the most interesting result is that ID does not only have the information structural status topic, but also scene, vocative topic and, at times, focus. The instances of FIA all have the information structural status scene, and these are used in any syntactic form instantiating that scene. Furthermore, ID and FIA are in this report formalized as constructions in the framework of Sign-based Construction Grammar, which is introduced in and applied to Swedish for the first time. The constructions are also formulated as entries in the construction database Swedish Constructicon. Finally, this report presents a preliminary sketch of how ID and FIA can be included in a constructicon network of Swedish, i.e. the mental network our grammars consist of. The proposed network introduces another categorization of ID and FIA than the one being used in the Swedish reference grammar, but the categories of the reference grammar could also be incorporated in this draft.
  • Item
    Korp 6 - Användarmanual
    (Institutionen för svenska språket, Göteborgs universitet, 2017) Hammarstedt, Martin; Borin, Lars; Forsberg, Markus; Roxendal, Johan; Schumacher, Anne; Öhrman, Maria
  • Item
    Korp 6 - Technical Report
    (Institutionen för svenska språket, Göteborgs universitet, 2017) Hammarstedt, Martin; Roxendal, Johan; Öhrman, Maria; Borin, Lars; Forsberg, Markus; Schumacher, Anne