Dialectromans

Naast een grote collectie dialectwoordenboeken en boeken over dialectgrammatica heeft de bibliotheek van het Meertens Instituut ook een collectie met verhalende literatuur, geschreven in dialect: de zogenaamde dialectromans. De circa 18 meter boeken uit alle streken van Nederland vormen samen een mooie bron voor taalkundigen, die met dit materiaal veel onderzoek kunnen doen zodra het digitaal doorzoekbaar zou zijn.

Om voor de taalkundigen een corpus te kunnen maken met dialectmateriaal gebaseerd op de collectie dialectromans, zullen de boeken worden gescand. Het materiaal dat in de loop van tientallen jaren is verzameld, moet daarvoor eerst worden voorzien van een consistente set metadata, met onder andere informatie over auteursnamen, dialectgebied en jaar van publicatie. Het gedigitaliseerde materiaal wordt in verschillende uitvoerformaten geleverd. Op die manier blijven zoveel mogelijk opties open om het corpus in de toekomst verder te verrijken met meta-informatie op taalkundig niveau, maar ook om het corpus te kunnen linken aan digitaal beschikbare dialectwoordenboeken en -grammatica, of digitaal beschikbare taalkundige bestanden, zoals de GTRP-database – een database die het dialect van meer dan 600 Nederlandse, Vlaamse en Friese plaatsen omvat.

Het project om de boeken in te scannen liep van 1 juli 2023 tot 1 januari 2024.

In 2025 zijn twee stagiaires aangenomen voor een eerste verkenning van het materiaal. Vragen die hierin worden onderzocht zijn onder andere: hoe kunnen we een large language model trainen om dialecten (zoals bijvoorbeeld het Deventers) van Standaaardnederlands te onderscheiden? Hoe betrouwbaar/bruikbaar is het materiaal uit de dialectromans voor taalkundig onderzoek?