Technische ontwikkeling - Meertens Instituut

De afdeling Technische Ontwikkeling bouwt databases, ontwikkelt webapplicaties en zorgt voor de technische ontwikkeling en het beheer van de website(s). Steeds meer onderzoeksresultaten en collecties van het instituut komen terecht in databases die worden ontsloten via de website voor onderzoek en voor een breder publiek.

In 2012 hebben de projecten op het terrein van e-humanities een verdere verbreding van het palet aan wetenschappelijke relevante toepassingen opgeleverd. Zo heeft de creatie van een crowd-sourcing omgeving ten behoeve van het ‘Gekaapte Brieven’ project verschillende spin-off projecten opgeleverd waarbinnen de ontwikkelde technologie is toegepast. Hiermee wordt het mogelijk grotere gebruikersgroepen van buiten het Meertens Instituut te betrekken bij de digitalisering van materialen waarvoor geen automatische verwerkingsprocedures mogelijk zijn, waaronder handgeschreven teksten. De crowd-sourcing technologie is mede ingezet in het project ‘Radicaal Politiek Verbeelding’, in samenwerking met het NIOD, en de digitalisering van de gescande Meertens Vragenlijsten vanaf 1930 ( 1M scans).

De resultaten van dit soort digitaliseringtrajecten kunnen rechtstreeks ten goede komen aan de set van databestanden die aan de CLARIN infrastructuur ter beschikking worden gesteld. Momenteel worden 246.728 metadata beschrijvingen via OAI-PMH ter beschikking gemaakt, waarvan een niet onaanzienlijk deel afkomstig is van de Liederenbank. Ook deze laatste set is in 2012 hiervoor geschikt gemaakt. Voor de ontsluiting kan de eindgebruiker gebruik maken van de eigen ontwikkelde zoekmachine die momenteel in twee varianten wordt aangeboden. Eentje voor de Meertens eigen bestanden (http://www.meertens.knaw.nl/cmdi/search-mi ) en eentje waarbinnen door alle op CLARIN EU niveau beschikbare metadata beschrijvingen gezocht kan worden (http://www.meertens.knaw.nl/cmdi/search).

Het aantal taal- en spraakanalyse mogelijkheden is uitgebreid doordat in het kader van het CLARIN-NL project TST Tools voor het Nederlands als Webservices in Workflow (TTNWW) een aantal componenten die oorspronkelijk in het kader van CGN en STEVIN ontwikkeld zijn als web services ter beschikking worden gesteld. Deze omvatten, onder anderen, corpus cleanup, tagging, parsing, named entity recognition, corefentie voor tekstuele data en conversie, segmentatie, transcriptie voor spraakdata. Voor verschillende taken zijn workflows samengesteld door gebruik te maken van Taverna. Een groot deel van de services en de workflows worden vanuit de HPC Cloud omgeving van SARA gehost.

Op het terrein van visualisaties heeft het Interactive migration maps for the 20th century (MIGMAP) project (http://www.meertens.knaw.nl/migmap/ ) een herbruikbare component opgeleverd voor de afbeelding van data op de Nederlandse gemeentegrenzen. Naast de in het MIGMAP project beoogde weergave van migratiepatronen wordt de visualisatie component ook ingezet binnen de bovengenoemde crowd-sourcing omgeving van de Meertens Vragenlijsten.

In 2012 is de Nederlab aanvraag toegekend waar de afdeling een leidende rol heeft in de ontwikkeling van de infrastructurele aspecten van dit project. Hierbij zal maximaal gebruik gemaakt worden van de in de afgelopen jaren opgebouwde kennis en expertise op het gebied van archivering, archiefontsluiting, geavanceerde zoektechnologieën en de inzet van web services/workflows.

Een aantal van de projecten zijn speciaal uitgelicht en geven een beeld van de diversiteit aan activiteiten binnen de afdeling Technische Ontwikkeling.

Gekaapte Brieven (2011-2012)

Met ‘Gekaapte brieven’ worden de documenten aangeduid die zich bevonden aan boord van Nederlandse schepen die door de Engelsen zijn buitgemaakt in een van de vier oorlogen die Groot-Brittannië en de Republiek der Zeven Verenigde Nederlanden in de 17de en 18de eeuw hebben gevoerd. Eind november 2011 is een vrijwilligersproject gestart om de gekaapte brieven te ontsluiten met metadata en transcripties.
Resultaten in 2012: In 2012 zijn 8000 documenten getranscribeerd en voorzien van metadata. Op 8 oktober is de site www.gekaaptebrieven.nl onder grote publieke belangstelling gelanceerd waarop de eerste set van ca. 3000 documenten beschikbaar is gemaakt. Voor het project is een crowdsourcing omgeving opgezet, alsmede de website met browse/zoek modules.
Medewerkers: N. van der Sijs (projectleider/onderzoeker), M. Kemps-Snijders (technisch coördinator), R. Zeeman (ontwikkelaar).

Radicale politieke verbeelding: Ontsluiting van nationaalsocialistische karikaturen (2012-2013)

In dit project worden enkele honderden politieke spotprenten van Meuldijk in het blad Volk en Vaderland uit de jaren 1933-1945 in kaart gebracht. Vrijwilligers kunnen hieraan meewerken door één of meer spotprenten te omschrijven. Deze spotprenten zijn inmiddels gedigitaliseerd door de Koninklijke Bibliotheek en kunnen via het internet op elke computer worden bekeken. Het NIOD en het Meertens Instituut hebben een website ontwikkeld om in de periode 2012-2013 op systematische wijze nauwgezette beschrijvingen van Meuldijks karikaturen stuk voor stuk mogelijk te maken. Het project is gefinancierd door het Center for Digital Humanities te Amsterdam. Internet: http://www.meertens.knaw.nl/vova. Project in samenwerking met: NIOD.
Medewerkers: K. Ribbens (NIOD), R. Zeeman (ontwikkelaar), J. Zhang (ontwikkelaar).

Interactieve migratie kaarten voor de 20ste eeuw (MIGMAP) (2012-2012)

Mensen migreren en nemen hun sociale, culturele en linguïstische identiteit mee. Kennis omtrent migratie is in hoge mate interessant voor begrip van, bijvoorbeeld, sociolinguïstische en dialectologische verspreidingspatronen. Op basis van de beschikbaarheid van geboorte- en woonplaats (in 2006) van de Nederlandse bevolking en hun familie relaties uit de Gemeentelijke Basis Administratie kunnen migratie patronen van drie generaties in de 20ste eeuw gepresenteerd worden. Het project heeft een webapplicatie ontwikkeld waar voor de gebruiker op onder anderen basis van plaats, generatie en geslacht een interactieve migratie kaart gepresenteerd word.
Project in samenwerking met: Universiteit Utrecht en het Nederlands Interdisciplinair Demografisch Instituut (NIDI).
Resultaten in 2012: Website en Web service ontwikkeld, nieuwe versie van de Kaartmodule: www.meertens.knaw.nl/kaart/. Lezing voor eHumanities.
Medewerkers: G. Bloothooft (Universiteit Utrecht/Meertens Instituut), P.Ekamper (onderzoeker), J. P. Kunst (ontwikkelaar), F. van Poppel (NIDI), F. de Vriend (ontwikkelaar)

TTNWW (2010-2012)

Het doel van het project is om allerlei bestaande componenten die ontwikkeld zijn in (o.a.) CGN en STEVIN in te passen in een workflowsysteem voor web services dat (o.a. met grote Nederlandse inbreng, bijv. het Max Planck Instituut) ontwikkeld wordt in CLARIN-verband, en dit geheel te laten draaien op servers van erkende CLARIN-centra, met als doel faciliteiten aan te bieden voor onderzoekers uit de HSS met geen of weinig technische bagage. Deze faciliteiten moeten 1) hen in staat stellen hun onderzoeksvragen beter of makkelijker aan te pakken en 2) mogelijkheden bieden voor het formuleren van nieuwe typen onderzoeksvragen, i.e. onderzoeksvragen die vóór CLARIN niet gesteld konden worden of niet doelmatig te beantwoorden waren. Een belangrijk doel van het project is de in Nederland en Vlaanderen gangbare de facto standaarden voor dataformaten, interfaces tussen tools, en protocollen te promoten binnen CLARIN, ze te toetsen aan binnen CLARIN voorgestelde standaarden, en de binnen CLARIN gangbare standaarden te toetsen aan de de facto standaarden die in Nederland en Vlaanderen ontwikkeld zijn in o.a. CGN en STEVIN. Daarmee beogen we een grote invloed uit te oefenen op het definiëren van het concept CLARIN-compatibel, dat momenteel in ontwikkeling is, en de rol van Nederland en Vlaanderen binnen CLARIN te consolideren en verder uit te bouwen. Project in samenwerking met: Universiteit Groningen, Universiteit Utrecht, Universiteit van Tilburg, Instituut voor Nederlandse Lexicologie, Radboud Universiteit, Universiteit van Twente.
Resultaten in 2012: De webapplicatie voor TTNWW is opgeleverd waarin een aantal web services uit het CGN en STEVIN project voor tekst en spraak zijn opgenomen. Hiermee wordt het mogelijk voor HSS onderzoekers eenvoudig toegang te krijgen tot deze functionaliteit. De webservices zijn voor het merendeel ondergebracht in de cloud omgeving bij SARA via een samenwerking met het BigGrid project en maakt gebruik van Taverna om de services samen te brengen tot workflows. Presentatie: Dynamic web service deployment in a cloud environment (M.Kemps-Snijders, M. Brouwer, J. P. Kunst and T. Visser, LREC 2012 Proceedings).
Medewerker: M. Kemps-Snijders (coördinator/software-ontwikkelaar).