Gehonoreerde CLARIN-projecten - Meertens Instituut

Het project “Common LAnguage Resources and technology INfrastructure” (CLARIN) is een grootschalig pan-Europees samenwerkingsproject. Het doel van CLARIN is het creëren van een geïntegreerde en interoperabele infrastructuur voor de sociale en geesteswetenschappen waarbinnen bronnen en functionaliteit ontsloten worden voor de wetenschappers. Er zijn recent drie projecten waar het Meertens Instituut bij betrokken is gehonoreerd.

Tot het dienstenpalet van CLARIN behoort archivering en hergebruik van data, maar ook advies over metadata en standaarden. CLARIN stimuleert hiermee kennis- en data-uitwisseling tussen letterkundigen, historici, spraaktechnologen, communicatiewetenschappers en vele anderen. Een belangrijk doel van CLARIN is dat er voor elke taal in de Europese Unie hulpbronnen zoals lexica en corpora aanwezig zijn in direct bruikbare vorm.

De gehonoreerde projecten

INPOLDER- International Parser of Historical Dutch in Retrospect

In het tegenwoordige computertijdperk gaan we heel anders om met teksten dan vroeger. Veel teksten zijn gedigitaliseerd waardoor je ze kunt doorzoeken met een zoekopdracht. Om teksten nog beter te kunnen doorzoeken worden ze soms verrijkt met codes (zgn. “tags“), bijvoorbeeld om aan te geven of iets een zelfstandig naamwoord of een werkwoord is (vgl. ‘de kan’ tegenover ‘hij kan’). De taal van oudere teksten vertoont echter veel meer interne variatie. Een belangrijke oorzaak hiervan is dat de taal, in zijn oudere fasen, niet gestandaardiseerd was. Regionale verschillen werden weerspiegeld in de teksten. Ook op het niveau van individuele schrijvers en kopiïsten kon de taal van de teksten intern variëren. Een andere oorzaak van variatie is dat de teksten uit een in de tijd uitgesmeerde periode komen, waarbinnen de taal aanzienlijk is veranderd. Als gevolg van al deze variatie hebben computergestuurde ontsluitingsmethoden (zoekopdrachten, en zgn. taggers en parsers) een slechter resultaat wanneer ze toegepast worden op historische teksten dan wanneer ze toegepast worden op moderne gestandaardiseerde teksten, zoals kranten, boeken, etcetera. Recentelijk is aan de Radboud Universiteit een tagger ontwikkeld die goed kan omgaan met dergelijke spellingsvariatie. De volgende natuurlijke stap, die in dit project gedaan wordt, is om een parser te ontwikkelen die met variatie kan omgaan en door deze Nijmeegse tagger gestuurd en gevoed wordt. Als alles naar behoren werkt, willen we deze parser via het internet beschikbaar stellen.

Medewerkers: Ans van Kemenade (Radboud Universiteit en hoofdaanvrager), Ben Hermans (MI), Gertjan Postma (Meertens Instituut), Hans van Halteren (Radboud Universiteit), Marc Kemps-Snijders (Meertens Instituut) en Margit Rem (Radboud Universiteit)

C-DSD – Curating the Dutch Song Database

De Nederlandse Liederenbank van het Meertens Instituut bevat beschrijvingen van meer dan 140.000 liederen. Deze databank bestaat al 25 jaar en is aan een update toe. In C-DSD, een zgn. curatie-project, wordt de Liederenbank aangepast aan de contemporaine eisen en wensen op het gebied van standaarden en protocollen. Dat maakt het bijvoorbeeld mogelijk om deze data gemakkelijk uit te wisselen met anderen.

Medewerkers: Els Stronks (Universiteit Utrecht), Folkert de Vriend (Meertens Instituut), Martine de Bruin (Meertens Instituut), een programmeur (Meertens Instituut)

COAVA – Cognition, Acquisition and Variation Tool

In dit project wordt digitaal gereedschap ontwikkeld ten behoeve van innovatief interdisciplinair onderzoek waarbij gekeken wordt naar de talige eigenschappen van lexicale items, zowel binnen eerste taalverwerving als binnen dialectvariatie. Gereedschap dat in een eerder onderzoeksproject ontwikkeld werd om omvangrijke lexicale dialectdatabanken te ontsluiten, dient daarbij als uitgangspunt. Het project laat zien hoe je met de CLARIN-infrastructuur sterk verschillende taalkundige disciplines met elkaar in verband kunt brengen en de informatie uit dataverzamelingen van verschillende disciplines kunt laten overeenstemmen. Dit maakt het bijvoorbeeld mogelijk om te kijken welke variatie basisbegrippen, zoals zon, neus, boom en vis, vertonen in de woordenschat van dialecten en hoe ze als woorden worden geleerd door kinderen.

Medewerkers: Leonie Cornips (Meertens Instituut), Marc Kemps-Snijder (Meertens Instituut), Folkert de Vriend (Meertens Instituut) en Jos Swanenberg (Universiteit van Tilburg)

Dit artikel is verschenen in de digitale nieuwsbrief van het Meertens Instituut. Ook abonnee worden? Klik hier