24 oktober 2018

Automatische transcripties voor handgeschreven teksten

Namens het Meertens Instituut heeft onderzoeker Nicoline van der Sijs een samenwerkingsovereenkomst gesloten met READ/Transkribus. Transkribus is een programma dat automatische transcripties van handgeschreven teksten maakt, ontwikkeld door de Universiteit Innsbruck en onderdeel van het door de Europese Unie gesubsidieerde project READ (Recognition and Enrichment of Archival Documents). 

Momenteel wordt het programma uitgebreid met automatische transcripties van teksten die zijn gezet in gotisch schrift. Van der Sijs heeft met de hulp van vrijwilligers veel foutloze transcripties laten maken van handgeschreven teksten (de gekaapte brieven) en gotische teksten, onder meer van bijbelvertalingen en zeventiende-eeuwse kranten. Deze teksten kunnen gebruikt worden om het computermodel van Transkribus verder te trainen.

Bijbel en Michiel de Ruyter

Van der Sijs zal Transkribus zelf gebruiken voor de samenstelling van een historisch Bijbelcorpus van het Nederlands, Duits, Engels en Zweeds, dat gebruikt zal worden voor onderzoek naar complexe werkwoordconstructies in het Germaans. Een ander project waarvoor Transkribus wordt ingezet is de vervaardiging van transcripties van handgeschreven teksten van Michiel de Ruyter. Onderzoekers Marjo van Koppen en Nicoline van der Sijs hebben met behulp van vrijwilligers een eerste hoeveelheid transcripties (20.000 woorden) van zijn teksten vervaardigd. Op basis hiervan hebben de projectleiders van Transkribus een computermodel getraind. Het computermodel is nu in staat om het handschrift van de zeventiende-eeuwse zeevaarder de herkennen met een foutmarge van tien procent. Dit is een zeer goed resultaat voor het moeilijk leesbare handschrift van de Ruyter. ​Van Koppen en Van der Sijs willen op termijn een online corpus aanleggen met de transcripties van de handschriften van de Ruyter.

foto: handschrift van Michiel de Ruyter in Nationaal Archief NL HaNA 1.10.72 20 0004