Pernilla Danielsson, språkvetenskaplig databehandling- disputation 21 april 2001 Hur får man en dator till att hantera betydelse i språk? Om du ska slå upp betydelser i en ordbok så utgår du ifrån ett ord, som om det vore självklart att enkla ord har givna betydelser. Likaså utgick vi i skolan ifrån enkla ord när vi lärde oss att ordet "öga" är ett substantiv och ordet "hålla" är ett verb. Men var det en alltför tillrättalagd bild av språket vi konfronterades med? Att sätta in ord i ordklasser kanske är användbart när vi vill diskutera språket i mer abstrakta former, men hur stor relevans har de givna ordklasserna i språket? Ta till exempel frasen "hålla ett öga på" - har det verkligen någon betydelse att "öga" skulle vara ett substantiv; ordet kan vare sig böjas (jfr "hålla ögon på") eller bytas ut med andra substantiv (jfr "hålla ett öra på"). Språket är fullt av dessa flerordsenheter med unik betydelse, och de har företräde över alla grammatiska regler vi någonsin lärt oss. Pernilla Danielsson visar i sin avhandling på hur dessa betydelsefulla enheter kan användas när det gäller att få en dator att översätta mellan svenska och engelska. I vårt dagliga tal är dessa flerordsenheter en självklarhet som vi inte ens tänker på. Men när vi försöker tala ett annat språk blir det tydligare för oss att det finns regler som inte står beskrivna i vare sig lexikon eller grammatikböcker. Om datorn ska bli språkbrukare måste vi kunna beskriva språket grundenheter och regler in i detalj på ett objektivt sätt. Det finns idag en gren inom lingvistiken som kallas korpuslingvistik. En korpus syftar på en stor samling texter (eller nedtecknat tal) som kan studeras för att se regelbundenheter och oregelbundenheter i vårt språk. Ofta blir man förvånad över resultatet. Försök till exempel att beskriva ordet "hand". Tänkte du då på att ta med "efter hand", "skaka hand" och "ta hand om". Eller om du beskriver ordet "hålla" - tog du med "hålla reda på"? Det är just dessa typer av enheter en korpus kan visa, och i det fall vi verkligen använder de former som du först specificerade så finns även dessa i korpusen.Pernilla Danielsson visar på hur dessa betydelsefulla enheter kan extraheras ur de stora textmassorna. Metoderna bygger på ordens distribution i språket. Redan 1935 kunde George Zipf visa att matematiska lagar rådde även inom språket. Genom sina statistiska beräkningar kunde han påvisa regelbundenheter i språket som vi normalt bara tillskriver de naturvetenskapliga studierna. Än mer intressant var dock hans iakttagelse att dessa regelbundenheter inte verkade gälla våra mest frekventa ord, såsom "och", "det" och "är", vilket kunde tyda på att ord inte är den bästa grundenheten att utgå ifrån. Ett av de intressanta resultaten från Danielssons avhandling är att genom att utgå ifrån betydelsefulla flerordsenheter får vi fram en mer uniform distribution av enheter i texter och Zipfs iakttagna regelbundenheter visar sig hålla även för högfrekventa ord.Slutsatserna från avhandlingen blir att dagens metoder för att få datorer att hantera naturligt språk har fokuserat på enordsenheter och på grammatisk beskrivning och därmed tappat mycket av betydelsebeskrivningen. Med utgångspunkt ur de betydelsefulla flerordsenheterna kan Pernilla Danielssons beskrivning av språket inkludera en dimension som hittills förbisetts inom datalingvistiken Avhandlingens titel: The Automatic Identification of Meaningful Units in Language. (Automatisk identifiering av betydelsefulla enheter i språket.) Disputationen äger rum lördagen den 21 april 2001, kl. 10.00 Lilla hörsalen, Humanisten, Renströmsgatan 6 Närmare upplysningar kan fås från Pernilla Danielsson, tel 00 44 121 414 56 88 (arb, Birmingham, UK), 00 44 (0)121 455 85 47 e-post: pernilla@clg.bham.ac.uk