Nederlab brengt miljoenen teksten samen

Van het vroegste Middelnederlands tot Nederlands uit de eenentwintigste eeuw. In Nederlab zijn miljoenen oude en nieuwe teksten voor het eerst op één plek doorzoekbaar gemaakt. Deze maand vindt de officiële lancering plaats met bijdragen van diverse wetenschappers. Zij laten zien welke nieuwe mogelijkheden Nederlab biedt voor onderzoek naar de Nederlandse taal en cultuur.

door Mathilde Jansen

Waarom kent het Nederlands de woorden na en naar, terwijl het Duits beide betekenissen verenigt in het enkele woordje nach? En hoe verbreidde de nieuwe vorm naar zich? Het waren vragen die taalkundige Nicoline van der Sijs bezighield. Met de zoekmachine van Nederlab kon ze op een deel van deze vragen het antwoord vinden. De vorm naar ontstond als variant van na in het West-Vlaams en verspreidde zich geleidelijk over de rest van Nederland. Het waren de zeventiende-eeuwse grammatici die besloten beide vormen te gaan gebruiken in een andere betekenis.

“Met Nederlab kunnen we voor het eerst dergelijke eeuwenlange ontwikkelingen volgen”, zegt Van der Sijs, die initiatiefnemer was van dit grootschalige project. “Tot nu toe hadden we niet zo’n langdurig corpus. Het kan nieuw licht werpen op tal van onderzoeksvragen.”

41 miljoen teksten

In 2013 ging Nederlab van start aan het Meertens Instituut met een grote subsidie van NWO. De belangrijkste partners in dit project waren het Instituut voor Nederlandse Taal, de Universiteit Nijmegen, de Koninklijke Bibliotheek, het Huygens ING, en de DBNL. Nu vijf jaar later zijn 41 miljoen teksten aan het onderzoeksportaal toegevoegd, en dat worden er nog meer. “We hebben straks 25 collecties online”, zegt IT-ontwikkelaar en projectcoördinator Hennie Brugman.

Het betreft corpora (tekstbestanden) die voor het merendeel al digitaal beschikbaar waren – in diverse genres: kranten, romans, Bijbelteksten, dagboekfragmenten – die nu ook gezamenlijk doorzoekbaar zijn gemaakt. Maar om dat te bewerkstelligen waren eerst een aantal stappen nodig: de bestanden waren beschikbaar in verschillende formaten, die moesten worden geüniformeerd. Ook waren de data op verschillende manieren met metadata beschreven.

Spellingsvariatie

Nadat de data geüniformeerd waren, zijn ze taalkundig verrijkt. Dat betekent dat voor ieder woord onder meer het lemma en de woordsoort als annotatie zijn toegevoegd. Je kunt bijvoorbeeld zoeken naar het bijvoeglijk naamwoord arm. De machine negeert dan alle plaatsen waar arm verwijst naar het lichaamsdeel (zelfstandig naamwoord). Brugman: “Je krijgt zo een structuur van aan elkaar gekoppelde informatielagen. Hierdoor kun je zoeken naar complexe zoekpatronen, en dat is eigenlijk de basis van de hele machine. Er zitten nu zo’n 18 miljard woorden in, en dan praat je dus al gauw over 70 miljard annotaties.”

Een ander probleem dat Nederlab probeert op te lossen is dat van de spellingsvariatie, die met name woorden in oudere teksten kenmerkt. Als je een woord letterlijk zoekt, vind je de varianten niet, waardoor je heel veel informatie mist. Nederlab biedt de mogelijkheid om ook de historische varianten van een woord automatisch te (laten) zoeken, of woorden te vinden waar een OCR-fout in staat: een fout die is ontstaan bij het automatisch inlezen van met name krantenmateriaal door de computer.

Stylometrie

De data zijn voor het merendeel automatisch verrijkt. In een aantal gevallen bevatten de aangeleverde corpora al handmatige annotaties, die zijn overgenomen. Handmatig annoteren van de rest was onmogelijk gezien de grote hoeveelheden tekst die zijn toegevoegd aan Nederlab. Dat heeft als nadeel dat de annotaties lang niet altijd foutloos zijn. “Maar daar staat tegenover dat de omvang van Nederlab uniek is in zijn soort”, zegt Van der Sijs. “Voor het Amerikaans Engels en het Brits Engels zijn wel allerlei losse vergelijkingscorpora, die ook nog eens handmatig zijn verrijkt, omdat daar meer geld voor is.”

De gecombineerde zoekfuncties maken Nederlab niet alleen interessant voor taalkundigen, maar ook voor letterkundigen en historici. Zo kun je bijvoorbeeld stylometrisch onderzoek doen, wanneer je de auteur van een anonieme tekst wilt opsporen. “Bij dit soort onderzoek kijk je vooral naar de frequentie van woorden”, zegt Brugman. “Je ziet dan subtiele verschillen tussen de woorden die auteurs gebruiken. Welke set woorden een auteur gebruikt geeft dus een grove benadering van zijn of haar stijl.”

Twitterarchief

Deze maand vindt de officiële lancering van Nederlab plaats. Maar het project Nederlab is daarmee niet afgesloten. De ontwikkelaars zullen de zoekmachine blijven verbeteren aan de hand van nieuwe gebruikerservaringen. Ook kan Nederlab in de toekomst uitgebreid worden met nieuwe teksten.

Antal van den Bosch, directeur van het Meertens Instituut, was als taaltechnoloog al in een vroeg stadium betrokken. Hij ziet ook nieuwe uitdagingen voor de toekomst. “De hoeveelheid geschreven tekst neemt nog steeds alleen maar toe. Het hele Nederlab is nu 18 miljard woorden groot, waarvan het merendeel van de teksten afkomstig is uit kranten. Maar dat weegt nog lang niet op tegen de hoeveelheid woorden in ons Twitterachief van slechts een paar jaar oud.”

Meer informatie

De officiële lancering van Nederlab vindt plaats op 26 oktober 2018. Lees ook meer op www.nederlab.nl

Dit artikel is verschenen in de digitale nieuwsbrief van het Meertens Instituut. Ook abonnee worden? Klik hier.