Multilingual Text Robots for Abstract Wikipedia – Using Grammatical Framework to generate multilingual articles on Swedish localities

dc.contributor.authorDiriye, Omar
dc.contributor.authorFolkesson, Filip
dc.contributor.authorNIlsson, Erik
dc.contributor.authorNIlsson, Felix
dc.contributor.authorNIlsson, William
dc.contributor.authorOsolian, Dylan
dc.contributor.departmentGöteborgs universitet/Institutionen för data- och informationsteknikswe
dc.contributor.departmentUniversity of Gothenburg/Department of Computer Science and Engineeringeng
dc.date.accessioned2023-03-03T10:25:47Z
dc.date.available2023-03-03T10:25:47Z
dc.date.issued2023-03-03
dc.descriptionDen stora mängden wikipedia-artiklar och språk har resulterat i en hög kostnad för Wikipedia, det vill säga den tid och det engagemang som krävs för att göra varje artikel tillgänglig på varje språk. Denna artikel beskriver utvecklingen av en flerspråkig textrobot som kommer att använda data från databasen Wikidata för att generera artiklar om svenska tätorter på olika språk och hur en sådan textrobot kan vara till nytta för att minska kostnaderna för Wikipedia. Textroboten har utvecklats med det funktionella programmeringsspråket Grammatical Framework, query-språket SPARQL samt Python. Ämnet svenska tätorter valdes med hänsyn till det stora antalet tätorter i Sverige, det nuvarande ringa antalet wikipedia-artiklar om ämnet (bortsett från svenska artiklar), och det faktum att samma strukturkan användas för att beskriv alla orter med endast liten variation. Resultaten var artiklar innehållande cirka fem meningar som beskriver tätorten, en punktlista över händelser som inträffat i tätorten och motsvarande media, såsom en bild på orten eller en väderprognos för den kommande veckan. Baserat på resultatet kan man dra slutsatsen att användningen av en textrobot kan vara ett bra tillvägagångssätt för att minska kostnaderna för Wikipedia eftersom den producerar över ett tusen artiklar på flera olika språk. Ett annat anmärkningsvärt faktum är att alla gruppmedlemmar är kandidatstudenter utan förkunskaper i Grammatical Framework eller lingvistik, vilket visar på att det är möjligt att utveckla en textrobot med begränsade förkunskaper.en
dc.description.abstractThe vast amount of Wikipedia articles and languages has resulted in a high cost of Wikipedia, i.e. the required time and dedication for making every article available in every language. This paper describes the development of a multilingual text robot that will use data from the database Wikidata to generate articles on Swedish localities in various languages and how such a text robot can be beneficial for reducing the cost of Wikipedia. The text robot has been developed using the functional programming language Grammatical Framework, the query language SPARQL, and Python. The topic of Swedish localities was selected due to the large number of localities in Sweden, the sparseness of currently existing Wikipedia articles on the topic (excluding Swedish articles), and the fact that the same structure, with only slight variation, can be used to describe all of the localities. The results were articles containing approximately five sentences describing the locality, a bullet list of events occurring in the locality, and corresponding media, such as a picture of the locality or a weather forecast for the upcoming week. Based on the results, one can deduce that the use of a text robot might be a good approach for reducing the cost of Wikipedia since it produces over a thousand articles in several different languages. Another notable fact is that all project group members are bachelor’s students with no previous knowledge of Grammatical Framework or linguistics, which shows that it is possible to develop a text robot with limited previous knowledge.en
dc.identifier.urihttps://hdl.handle.net/2077/75396
dc.language.isoengen
dc.setspec.uppsokTechnology
dc.subjectText roboten
dc.subjectNatural Language Generationen
dc.subjectGrammatical Frameworken
dc.subjectMultilingual Natural Language Generationen
dc.subjectAbstract Wikipediaen
dc.subjectWikidataen
dc.titleMultilingual Text Robots for Abstract Wikipedia – Using Grammatical Framework to generate multilingual articles on Swedish localitiesen
dc.typetext
dc.type.degreeStudent essay
dc.type.uppsokM2

Files

Original bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
CSE 22-20 Grupp 22-27.pdf
Size:
2.13 MB
Format:
Adobe Portable Document Format
Description:
Thesis

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
876 B
Format:
Item-specific license agreed upon to submission
Description: