Adverbialkarakteristik för praktisk informationsextraktion i svensk text Projektrapport
Abstract
Den aktuella rapporten beskriver ett projekt som i första hand har inneburit ett
praktiskt arbete syftande till att skapa en automatiserad process som returnerar
frågeled, t.ex. varifrån, för adverbialled, t.ex. inifrån rummet, i svensk digital
text. Det är en utbytesprocess som behövs av rent praktiska skäl i uppgiften
frågegenerering, vilken innebär att en samling frågor som en text besvarar
genereras snabbt automatiskt. Denna process finner sin plats i program som på
olika sätt syftar till att ge informationsåtkomst i godtycklig okänd svensk text.
Det är i detta tillämpningsfall fråga om att på något sätt öppna upp för den stora
informationsmängd som i datalogiskt perspektiv ligger ’ostrukturerad’, dvs. i
naturligt språk-form.
Syftet med att avgöra lämpliga frågeled (ofta till en hv-form) för förekommande
satsled i text har dock förmodligen en mer allmän relevans än användning i
nämnda programtyp. Förutom att också behövas i andra liknande
datalingvistiska applikationer kan själva frågeställningen rymmas inom ramarna
för grundforskningen. De vanliga semantiskt grundade adverbialkategorierna
(vilka skiljer sig åt mellan olika grammatikor) definierar gärna
adverbialkategorier just genom att beskriva vilka slags frågor de besvarar. Att
som här sikta på att avgöra frågeled för adverbial är en mer detaljerad uppgift än
att avgöra adverbialkategori.
Den praktiska metod som implementerats i projektet kan sönderdelas i ett antal
steg som antas vara allmängiltiga och svåra att undgå med det aktuella syftet.
Indata till programmet är ett i princip godtyckligt adverbialled som användaren i
prototypprogrammet kan skriva in. De nämnda steg som tar vid är de följande.
1) En uppmärkning med ordklass- och annan grammatisk information för varje
löpord inleder. Detta sker med en statistisk trigrambaserad s.k. Hidden Markovmodell.
2/3) Ett avgörande av vilken strukturtyp som ledet har (bisats, PP, etc.)
görs utifrån löporden med informationen i föregående steg. Intimt förknippat
med denna uppgift är bestämning av huvudord, och för flera led även
bestämning av andra signifikanta komponenter som rektionshuvudord.
Lösningen till detta delsteg heter rangbaserad chunkning. 4) De steg som följer
härefter skiljer sig mycket åt beroende på den aktuella strukturtypen. För
prepositionsfraser undersöks t.ex. preposition och, beroende på vilken
preposition det är fråga om, rektionshuvudord, dess grundform och andra
ingående textsegment. I arbetet har t.ex. SweFN (Borin, Dannélls, Forsberg,
Toporowska Gronostaj, & Kokkinakis, 2010) delvis undersökts för att eventuellt
förbättra avgörandet av substantivsemantik, vilket ofta blir relevant för PPadverbial.
Rapporten visar hur uppgiften praktiskt sett varierar mycket i svårighetsgrad,
från de fall där adverbialet utgörs av t.ex. particip-, adverbfraser eller bisatser,
då en mappning till motsvarande frågeled ofta kan ske direkt utifrån huvudordet
– till de mest komplicerade fallen av PP och s.k. som-fraser där kombinationer
av huvudord, rektionshuvudord, dess grundform samt annan syntaktisk och
semantisk information krävs för att urskilja förekomsters särskilda
frågemotsvarigheter. Ett återkommande tema i det praktiska arbetet är undantag
som behöver kännas igen. Exempelvis kategorin satsadverbial, som kan anta
många olika strukturella former men som ändå oftast renderar resultatet ’ingen
frågemotsvarighet’, måste kännas igen uttryckligen (ev. tillsammans med andra
med samma frågeledsresultat). Även processen som helhet bygger emellertid
programmeringstekniskt på grundfall och undantag. I många fall, som t.ex. för i-
PP finns det en mängd olika motsvarigheter och vad som får utgöra grundfall i
programmet blir en empirisk/heuristisk fråga under det att regler skrivs mot
faktiska förekomster av adverbial i Stockholm Umeå Corpus (Hädanefter SUC).
Att i liksom andra prepositioner kan sägas ha en prototypisk riktningsbetydelse
betyder inte att var nödvändigtvis ska fungera som utgångsfall. Det förekommer
’lager’ av undantag inom olika strukturslag i programmet men även externt
motiverade sådana utgående från huvudverbet, som genom valensmatchning kan
klargöra att ett adverbial är ’prepositionsobjekt’ och därmed får andra
omfrågningsegenskaper. De användargränssnitt som skapats och använts för
regelskrivande utifrån faktiska exempel har tillåtit viss omedelbar
regeluppdatering och återkontroll vid åsynen av felaktiga resultat. Det är också
genom tillägg av nya undantagsregler i någon mening som programmet rimligen
ska kunna förbättras framöver från den aktuella kvalitetsnivån. Korrektheten
som uppnåtts hittills är inte kvantitativt övertygande men detta arbete som
saknar föregångare möjliggör kontinuerlig förbättring genom programmet.
Projektet visar att mappningsuppgiften i stora stycken verkar görbar när rätt
identifikation av huvudord, rektionshuvudord etc. identifieras med hjälp av
metoden ovan. Emellertid finns fall då det aktuella totala perspektivet, ”ge
frågeled för samtliga adverbial”, gör att uppgiften känns märklig och då det är
oklart vad som egentligen är korrekt frågemotsvarighet. Att välja ut vilka
led/frågor som i ett senare skede verkligen ska användas som realistiska
frågor/svarsled i ett användningsperspektiv tillhör dock den mer övergripande
frågegenereringsuppgiften och behandlas inte direkt i detta
Publisher
Institutionen för svenska språket
View/ Open
Date
12-07-07Author
Wilhelmsson, Kenneth
Publication type
report
ISSN
1401-5919
Series/Report no.
GU-ISS
Rapport
Language
swe