Taal met rekenmachine
- editie
- 483
- categorie
- alfawetenschappen
Taal en wiskunde, yin en yang, olie en water. Giet ze op elkaar en de een drijft boven op de ander, maar in het dunne scheidingsvlak bevindt zich een wereld van taalkundigen met een rekenmachine, een wereld van corpuslinguïstiek en computationele taalkunde.
Geeft Jan een Schamper aan Piet of geeft Jan Piet een Schamper? U ligt er waarschijnlijk niet wakker van, maar Timothy Colleman (doctor-assistent in de vakgroep Nederlandse Taalkunde) heeft al menige nachten liggen tobben over die verscheurende kwestie. Grof gesteld telt hij het aantal keer dat Yves zijn ziel aan de duivel verkoopt ten opzichte van het aantal keer dat Yves aan de duivel zijn ziel verkoopt, om maar iets te zeggen. Dat tellen gebeurt door een computer en dat is maar goed ook. In deze kwantitatieve vorm van taalkunde maakt men gebruik van zogenoemde corpora, dat zijn enorme brokken tekst, gesproken of geschreven, die verschillende tientallen miljoenen woorden tellen. Telkens als een bepaalde woordvolgorde voorkomt, wordt die geïnventariseerd op basis van een aantal parameters. De statistische evaluatie leert ons veel over de grammaticale en lexicale eigenschappen van werkwoorden en constructies. Sprekers weten namelijk dat de ene constructie in bepaalde omstandigheden waarschijnlijker is dan de andere.
Er wordt reeds vanaf de jaren 1990 veel empirisch werk verricht via corpora. Vroeger was men al tevreden met de absolute en relatieve frequenties, maar algauw voelde men de nood aan ‘inferentiële statistiek’. Daarbij gaat men bijvoorbeeld na wat de kans is dat een bepaalde woordvolgorde te wijten is aan het toeval, aan de situatie, of aan de herkomst van de spreker. Dat impliceert het gebruik van complexere wiskunde. Wat begon met een eenvoudige chikwadraattest wordt steeds meer vervangen door methodes als logistische regressie.
Linguisten met schrik van wiskunde
Gezien de wat geavanceerde wiskundige en statistische technieken staan veel studenten Nederlands enigszins huiverachtig tegenover corpuslinguïstiek. Een echt opleidingsonderdeel dat er volledig aan gewijd is, bestaat niet. Wel krijgen de studenten er af en toe iets over te horen. Colleman: “Elk jaar zijn er wel een vijftal moedigen die voor hun bachelor- of masterscriptie een volwaardig corpusonderzoek aanpakken.” Ook bij de meer klassieke collega-taalkundigen heerst enig onbegrip, zeker als het statistisch geavanceerder wordt. Reacties in de stijl van “Wat leert ons dat eigenlijk nog over de taal zelf?” of “Ja, maar dat wist ik al lang, daar had ik die cijfertjes niet voor nodig” zijn niet zelden onderdeel van de methodologische discussie die zo eigen is aan de academische wereld. Toch raak je als taalkundige dezer dagen niet ver zonder op zijn minst een basiskennis statistiek. De UGent Doctoral School speelt daar goed op in en organiseert geregeld cursussen statistiek voor taalkundigen. Bij vele taalkundigen heerst echter nog steeds koudwatervrees: zij voelen zich bij voorbaat al verloren, vanuit het waanidee dat taalkunde en wiskunde tegengestelde polen zijn.
“Elk jaar zijn er wel een vijftal moedigen die voor hun bachelor- of masterscriptie een volwaardig corpusonderzoek aanpakken.”
Natuurlijk is het ook mogelijk om statistici aan te werven, maar dan is het absoluut noodzakelijk dat die mensen voeling hebben met de problemen waar alfawetenschappers mee te kampen hebben en die zijn dungezaaid. In Leuven staat men al verder op dat vlak: daar zijn vele vakgroepen al gepokt en gemazeld in de kwantitatieve linguïstiek. In Gent is men minder kwantitatief ingesteld, temeer omdat hier een belangrijk deel van de onderzoeksactiviteit in de vakgroep Nederlandse Taalkunde naar bijvoorbeeld dialectwoordenboeken gaat en daar heb je nu eenmaal geen statistiek of informatica voor nodig. Denk overigens niet dat de corpuslinguïstiek met de rekenkracht van de UGent supercomputer gaat lopen, wel integendeel: de meeste berekeningen kunnen uitgevoerd worden met een gewone huis-, tuin- en keukencomputer, al kan dat in de toekomst gaan veranderen.
Onzichtbaar voor het blote oor
Dat de keuze voor een bepaalde woordvolgorde op meer dan zuivere willekeur berust, besefte ook Gert De Sutter, docent Nederlands aan de Hogeschool Gent Vertaalkunde. Hij onderzocht onder meer wanneer we het deelwoord voor of na het hulpwerkwoord plaatsen als deze naast elkaar op het einde van een zin voorkomen. Een voorbeeldje: “Ik geloof dat hij hier gisteren geweest is” (= groene volgorde) versus “Ik geloof dat hij hier gisteren is geweest” (= rode volgorde).
Blijkt dat de keuze voor de ene of de andere volgorde afhangt van een 13-tal factoren waaronder regionale afkomst, de aard van de communicatiesituatie, maar ook van het ritme van de zin, de betekenis van het werkwoord en de ervaring uit het verleden. Die dertien parameters en hun invloed op de woordvolgorde zijn onzichtbaar voor ‘het blote oor’ maar dankzij statistische verwerking van kwantitatief corpusonderzoek krijgen we nu een goed beeld op de rol van die parameters in de zinsopbouw.
Dat fenomeen, waarbij de keuze van de woordvolgorde bepaald wordt door een heel aantal erg verschillende factoren, zie je trouwens niet enkel in het Nederlands maar ook in het Engels, het Duits en tal van andere talen. Dit sterkt de onderzoekers in hun overtuiging dat taalgebruikers over een indrukwekkend grammaticamodel beschikken dat in de loop der jaren constant verandert door invloeden van buitenaf.
“In Leuven staat men al verder op dat vlak, daar zijn vele vakgroepen al gepokt en gemazeld in de kwantitatieve linguïstiek.”
Computers met taalgevoel
Colleman en De Sutter voeren vooral fundamenteel wetenschappelijk onderzoek, maar de LT3-groep rond Veronique Hoste heeft heel duidelijk een toegepast doel. Mevrouw Hoste is docent Taaltechnologie aan de Hogeschool Gent en haar onderzoek situeert zich op het gebied van de computationele taalkunde. Dat onderzoeksdomein situeert zich op het grensvlak van taalkunde en informatica. De belangrijkste partner bevindt zich dan ook niet bij de Letteren, maar wel bij de faculteit Toegepaste Wiskunde Informatie.
De expertise op gebied van taaltechnologie zit niet aan de UGent, maar vooral aan de Hogeschool Gent. Aan de universiteit zijn er wel een aantal mensen binnen de Ingenieurswetenschappen, het VIB en Toegepaste Wiskunde & Informatica die onderzoek verrichten naar zoeksystemen, biomedische informatie-extractie en dergelijke, maar het ontwerp van systemen die een diepe syntactische en semantische analyse van tekst nastreven, is vooral expertise van de Hogeschool. In de computationele taalkunde ontwikkelt men systemen die natuurlijke taal proberen te modelleren met als ultiem streefdoel artificieel tekstbegrip. Toepassingen zijn onder meer het ontwikkelen van grote corpora en tools voor automatische vertaling. Cruciaal voor dit laatste is de automatische desambiguering tussen verschillende woordbetekenissen. De meeste woorden hebben namelijk meerdere betekenissen, bijvoorbeeld vorst, bank of kraan. Mensen zien relatief eenvoudig in welke betekenis precies bedoeld wordt, maar voor computers is dat meestal problematisch. Men probeert het probleem op te lossen door aan elk woord enkele parallelle (meertalige) teksten te koppelen waaruit dan automatisch de juiste betekenis van het woord kan worden afgeleid.
Een andere toepassing is de ontwikkeling van het eerste systeem voor Nederlandse coreferentieresolutie. Bijvoorbeeld, in “Ik heb net Sprakeloos van Lanoye gelezen. Ik vond het een schitterend boek.” wordt automatisch bepaald dat de “ik” uit de tweede zin naar dezelfde entiteit in de werkelijkheid verwijst als de “ik” uit de eerste zin. Hetzelfde geldt voor “Sprakeloos”, “het” en “een schitterend boek”. Dergelijke systemen zijn van groot belang voor onder meer automatisch vertalen, informatie-extractie en sentiment-detectie.
Het foutloos vertalen van een tekst door een computer is nog toekomstmuziek, maar het is duidelijk dat de basis hiervoor gelegd wordt in de computationele taalkunde, waar taal- en wiskundigen de handen in elkaar slaan om zo tot automatische vertaalsystemen te komen die tolken nog slapeloze nachten zullen bezorgen.