Autentiska och artificiella frågor till svensk text Automatisk frågegenerering jämfört med användares frågor för informationsåtkomst
Authentic and artificial questions to Swedish text Automatically generated questions versus user-generated questions for information access
Abstract
Informationssökning mot ostrukturerade datakällor som fri text är ett av de områden där användargränssnitt med fri formulering i naturligt språk har tagits fram. I ett sådant, eventuellt AI-betonat, system kan några grundläggande svårigheter från användarperspektivet märkas. En sådan svårighet är att en användare inte känner till huruvida en fråga som hon avser att ställa egentligen kan besvaras av den aktuella texten. Denna svårighet, tillsammans med andra, som de kraftiga variationsmöjligheterna för formen för ett giltigt svar på en ställd fråga, riskerar att leda till att användarintrycken av systemtypen blir negativa.
De moment som behöver ingå i ett sådant frågebaserat informationssystems funktionssätt måste på något sätt inbegripa en mappning av frågeled i frågan (t.ex. när) till den form och grammatisk funktion som svaret i texten måste ha (för frågan när normalt ett tidsadverbial). Bland annat denna iakttagelse inbjuder till användning av automatisk frågegenerering (question generation, QG). Frågegenerering innebär att frågor som en naturlig text besvarar initialt utvinns av ett program som samlar in dem i explicit form. Tanken för användning i informationssökning är att en användare i gränssnittet enbart ska kunna ställa just dessa frågor, vilka faktiskt besvaras av texten.
Denna studie gäller just de frågor som ett automatiskt frågegenereringssystem för svenska kan, och genom vidare utveckling, skulle kunna generera för godtycklig digital svensk text. Även om mängden automatiskt genererade frågor och frågeformuleringar kan bli mycket stor, utrymmesmässigt många gånger större än ursprungstexten, så är det tydligt att den beskrivna metoden för frågegenerering för svenska inte kan och troligen inte heller kommer att kunna förmås att skapa alla de frågor och frågeformuleringar som en vanlig användare skulle anse att en viss text besvarar. Men hur väl fungerar då automatiskt genererade frågor i detta sammanhang?
Denna uppsats kretsar kring en användarundersökning där undersökningsdeltagare har ombetts att formulera frågor som texter besvarar, och som anses vara relevanta frågor. Den resulterande samlingen frågor undersöktes och kategoriserades. Resultatet av undersökningens huvudfråga visar att bara 20-25 % av användarnas frågeformuleringar skulle kunna genereras direkt automatiskt med aktuell ansats – utan vissa informationstekniska förbättringar.
Uppsatsen föreslår viss ny terminologi för detta outforskade område, bl.a. för att skilja mellan de olika grader av processkrav som generering av olika frågeslag från text kräver.
Degree
Kandidatuppsats
Bachelor thesis
Other description
Information access using unstructured data sources like free text is one of the areas where natural language user interfaces have been introduced. In such a (possibly AI-oriented) system, a few basic difficulties can be noted. One such difficulty emerges from the fact that a user is unaware of whether a particular question to be posed is in fact answered by the current text database. These difficulties, together with other problems, like the great variation of linguistics expressions that an answering segment may come in, put the user experience of this type of system interface at risk.
The processes involved in such a question answering system (QA) must somehow incorporate a mapping from wh-word (or similar), like when, to the syntactic form and function of the plausible answer (for when, a temporal adverbial would be a likely candidate). These and other observations suggest that question generation (QG) might be a well-suited supporting technology. Question generation is a process of initial generation of questions which are answered by the natural text in explicit form. The idea of bringing this mechanism into the setting of information access means restricting the user of the system’s user interface to only allow her to pose one of those questions, which do have answers.
This study deals with the questions that an automatic QG system for Swedish is, or, through further development, would be able to generate for arbitrary digital text in Swedish. Even though the amount of questions (and reformulations) may become very large, several times larger than the source text, it is clear that those sets do not, and probably will not, contain all questions – and formulations – that a human user would state that a certain text provides answers to. So, how well does automatically produced questions work for this task?
This thesis revolves around a user-study where the participants were asked to formulate relevant questions that texts answer. The resulting set of questions were examined and categorized. The result of the main question was that only about 20-25 % of the questions (formulations of questions) produced by the user could be generated automatically with the current technique for Swedish – without certain improvements on the generation side.
The study presents some new terminology (in Swedish) for coping with the varying degrees of technical improvements needed for production of different question types.
View/ Open
Date
2016-12-09Author
Wilhelmsson, Kenneth
Series/Report no.
2015:064
Language
swe