Publicatiedatum: 5 april 2017
Online data als bron voor de taalonderzoeker
Een groot deel van onze communicatie speelt zich online af. Dat betekent dat er online ook grote hoeveelheden data te vinden zijn die interessant zijn voor geestes- wetenschappelijk onderzoek. Dong Nguyen ging na hoe onderzoekers van talige en culturele variatie gebruik kunnen maken van grote digitale databestanden en computationele methoden.
Een paar jaar geleden was Tweetgenie volop in het nieuws: een computerprogramma dat aan de hand van het taalgebruik van een Twitteraccount voorspellingen doet over leeftijd en geslacht van de twitteraar. Volgens Tweetgenie gaat achter het twitteraccount van het Meertens Instituut bijvoorbeeld een man schuil van circa 45 jaar oud: in dit geval heeft Tweetgenie het niet helemaal juist. In andere gevallen is de schatting nauwkeuriger.
Dong Nguyen ontwikkelde Tweetgenie als onderdeel van haar promotieonderzoek. De manier waarop Tweetgenie werkt, is illustratief voor de manier waarop je taalkundig onderzoek kunt doen met de computer. Je selecteert een aantal Twitteraccounts waarbij de leeftijd en het geslacht van de gebruiker zichtbaar zijn. De tweets van die accounts laat je inlezen door de computer. Deze haalt vervolgens allerlei patronen uit de data. Op basis daarvan kun je een model ontwikkelen om voorspellingen te doen over nieuwe data.
Data van duizenden mensen
Nguyen is van huis uit informaticus. Voor haar promotieonderzoek werkte ze – behalve met andere informatici – ook samen met taalkundigen, etnologen en sociologen, waaronder verschillende onderzoekers van het Meertens Instituut. De promovendus wilde weten hoe je computationele methoden kunt inzetten voor hun type onderzoek. En hoe je door inzichten uit andere vakgebieden, bestaande methoden binnen de informatica kunt verbeteren.
Nieuwe blik op oude data
Het is ook mogelijk om de al verzamelde data met nieuwe statistische methoden opnieuw onder de loep te nemen, legt Nguyen uit. “Taalkundigen gebruiken bijvoorbeeld dialectkaarten. Tot voor kort keken ze dan handmatig naar zulke kaarten om er interessante patronen in te ontdekken. Maar daarbij maken ze menselijke fouten, want soms berust een patroon dat je ziet gewoon op toeval. De computer kan je vertellen hoe groot de kans is dat het patroon het gevolg is van toeval.”
Met Twitter is het bovendien mogelijk om tienduizenden dialectkaarten te maken. Voor mensen is het eigenlijk onmogelijk om in zo’n grote hoeveelheid kaarten patronen te zien. Ook daarvoor biedt een statistisch model uitkomst, stelt de onderzoeker. En ook niet onbelangrijk, zo’n model zorgt ervoor dat je onderzoek makkelijk kunt reproduceren.
Uitspraakvariatie op YouTube
Een medium als Twitter leent zich ook nog eens uitstekend voor onderzoek naar sociale variatie in taal. Die tak van de taalkunde staat bekend als de sociolinguïstiek. Het al genoemde Tweetgenie is een goed voorbeeld, want daarin kijk je naar de relatie tussen taalgebruik en sociale variabelen als leeftijd en geslacht. “Sociolinguïstiek bestaat wel al veel langer”, vertelt Nguyen, “maar het gebruik van computationele methoden is vrij nieuw.”
We zitten echt nog aan het begin van dit onderzoeksgebied, vindt Nguyen. “Veel onderzoek richt zich op één specifiek platform. Maar eigenlijk wil je meer platformen kunnen meenemen. Wij kijken naar Twitter, maar ook online fora of blogs en zelfs naar Instagram. En je kunt ook denken aan Youtube-video’s. Je ziet juist dat video en spraak steeds belangrijker worden online. Dat is interessant voor de sociolinguïstiek, want juist in de uitspraak vind je veel variatie.”
Praten met de computer
In een van haar experimenten keek Nguyen ook naar het gebruik van Limburgs en Fries op Twitter. “We wilden verder weten wanneer mensen in de minderheidstaal twitteren en wanneer ze overschakelen op het Nederlands. Over het algemeen twitteren mensen vooral in het Nederlands. Maar als ze op elkaar reageren, stappen ze soms over op de minderheidstaal. Als die switch naar de minderheidstaal eenmaal gemaakt is, is het heel ongebruikelijk om terug te schakelen.”
Dat inzicht helpt bij het verbeteren van dialoogsystemen, vertelt de promovendus. “Microsoft is daar bijvoorbeeld mee bezig. Je hebt vaak dialoogsystemen die ervan uitgaan dat de computer met de gebruiker in één taal praat of schrijft. Maar als je begrijpt wanneer mensen overschakelen op een andere taal, kun je dat soort systemen ook wat menselijker maken.”
Vooroordelen versterken
Zijn er eigenlijk ook nadelen aan dit soort computationeel onderzoek? Ja, die zijn er zeker ook, volgens Nguyen. “Sommige leeftijdsgroepen zijn ondervertegenwoordigd op een medium als Twitter. Of je mist informatie, bijvoorbeeld over de opleiding van je proefpersonen. Tot slot kun je in online data vaak wel makkelijk zeggen dat er een relatie is tussen a en b, maar het is een stuk moeilijker om het causale verband vast te stellen.”
En dan zijn er nog de ethische aspecten. Niet alleen de vraag of je zomaar alle online data mag gebruiken, maar ook de subjectiviteit van die data. “Binnen de informatica werken we vaak met zelflerende systemen. Deze systemen leren aan de hand van grote hoeveelheden data. Maar vaak zitten bepaalde vooroordelen die aanwezig zijn in de offline wereld daardoor ook in de data waarop een systeem ontwikkeld is. Zo zijn er meerdere onderzoeken geweest waaruit bleek dat vrouwen als ze op internet surfen vacatures zien voor lager betaalde functies dan mannen. De computer gaat dus bepaalde vooroordelen versterken.”
Maar het grootste nadeel is misschien wel dat de computationele methoden nu vaak zo complex zijn, dat veel onderzoekers er niet mee kunnen werken. Daar is dus werk aan de winkel, stelt Nguyen. “Als je deze methoden gebruikt als onderzoeker, wil je vaak weten waarom de computer een bepaalde beslissing maakt. Dan begrijp je ook beter wanneer en waarom de computer een fout maakt. De mensen die de systemen maken zouden meer oog moeten hebben voor de begrijpelijkheid voor de gebruiker. Dat kan ook een bepaalde angst wegnemen. Sommige taalkundigen denken dat informatici hun vakgebied willen veroveren, maar dat is helemaal niet het geval. Ik zie het meer als een verrijking.”
Foto's: 1. Dong Nguyen 2. sociale netwerken op basis van Twitter, copyright John Bryden, Sebastian Funk & Vincent Jansen; 3. cover proefschrift Text as social and cultural data.
Dit artikel is een al eerder in iets andere vorm verschenen op NEMO Kennislink.
Bron:
Dong Nguyen: Thesis Text as social and cultural data. Nguyen promoveerde op 10 maart 2017 cum laude aan de Universiteit Twente.