10 januari 2017

Online tool vertaalt namen vanuit het Russisch

Een online tool waarmee je Russische namen uit het cyrillisch of het Engels omzet naar het Nederlands. Dat is het resultaat van een NWO-project dat nu is afgerond door het Meertens Instituut en de Radboud Universiteit. De onderzoekers reiken hiermee journalisten, schrijvers, redacteuren en andere taalgebruikers een handig hulpmiddel aan.

Schrijf je Beijing of Peking? Tokyo of Tokio? Kiev of Kiëv? En als je in een Engelse tekst een Iaroslav Shcherbatyi tegenkomt die in de Russische stad Chelyabinsk woont, hoe schrijf je dat dan in het Nederlands? Wie op een nieuwsredactie werkt, zal vaak met dit soort vragen worstelen. Want namen van personen of plaatsen komen veel voor in het dagelijkse nieuws. Maar de meeste staan níét in Van Dale.

“Bovendien zijn de regels voor het omzetten van schriften als het Chinees, Arabisch of het cyrillisch naar het Latijnse alfabet niet altijd eenduidig”, vertelt Pepijn Hendriks, een van de ontwikkelaars van de nieuwe tool. Hendriks is een gepromoveerd slavist maar ook eindredacteur. In de journalistieke praktijk ziet hij dat de spelling van buitenlandse namen een terugkerend probleem is.

Letter voor letter

Het omzetten van namen vanuit het cyrillisch naar het Nederlands is relatief gemakkelijk: daarvoor bestaat een regelsysteem waarvan de basis in 1913 is gelegd door de Leidse hoogleraar Nicolaas van Wijk (1880-1941). Hendriks: “Dat gaat in principe letter voor letter, waarbij een slavist weet waar hij op moet letten.” Maar lang niet iedereen spreekt Russisch.

“Omdat het nieuws vaak via buitenlandse persagentschappen bekend wordt, vind je in Nederlandse media ook schrijfwijzen die eigenlijk uit een andere taal komen, vooral uit het Engels. Sommige redacties werken voor dat laatste wel met transcriptiemodellen, maar dat gaat lang niet altijd goed. Ook al doordat er in het Engels niet één standaardmanier is om namen om te zetten.”

Met of zonder haast

In de nieuw ontwikkelde Transcriptor kun je als gebruiker Russische namen in het cyrillisch of een Engelse variant invoeren, om vervolgens een spellingadvies te krijgen. Daarbij is rekening gehouden met journalisten die haast hebben. Je kunt namelijk kiezen tussen een snelle en een uitgebreide variant.

Cyrillische invoer is het betrouwbaarst: die wordt volgens de transcriptie van Van Wijk snel omgezet. Bij een ‘Engelse’ invoer wordt het ingewikkelder: omdat in die schrijfwijze informatie verloren kan zijn gegaan, is niet altijd duidelijk wat de oorspronkelijke versie was. De snelle variant probeert die zo goed mogelijk te bepalen. “Maar honderd procent zekerheid biedt deze methode niet”, aldus Hendriks. “Neem de verwante namen Наталья en Наталия, die moeten in het Nederlands Natalja en Natalia worden. Maar uit het Engelse Natalia kun je niet afleiden welke van de twee het zou moeten zijn.”

Gezond verstand

De uitgebreide methode, ontwikkeld door Martin Reynaert, doet een groter beroep op je geduld: het kan wel enkele minuten duren voor je een resultaat krijgt. In de tussentijd wordt een grote database met persoonsnamen (JRC-Names) of aardrijkskundige aanduidingen (GeoNames) geraadpleegd en berekend welke bekende naam of aanduiding het best past bij je invoer. Overigens geeft Hendriks te kennen dat ook deze manier niet altijd foutloos is. Vooral de JRCNames-database, opgezet door onderzoekers van de Europese Commissie, bevat soms wat ruis. “Je moet dus eigenlijk in alle gevallen je gezonde verstand blijven gebruiken.”

Ondanks de beperkingen hoopt Hendriks dat veel mensen dankbaar gebruik zullen maken van de Transcriptor. De tool is in korte tijd ontwikkeld, en dient als pilot voor een grotere aanvraag, om ook andere talen met een cyrillisch alfabet om te zetten, zoals het Oekraïens en het Kazachs. “En als je verder kijkt, zie je dat er ook veel variatie voorkomt bij het omzetten van Arabische namen in het Latijnse alfabet. Ook daarvoor kan een dergelijke tool uitkomst bieden.”

Stel je komt in een Engelse tekst een Iaroslav Shcherbatyi tegen uit de Russische stad Chelyabinsk. Hoe schrijf je dit dan in correct Nederlands? Die vraag stond in het begin van dit artikel. Het antwoord is Jaroslav Sjtsjerbaty uit Tsjeljabinsk.

Afbeeldingen: 1. het cyrillische alfabet, Wikipedia; 2. Nicolaas van Wijk op 22 mei 1922, Wikipedia (publiek domein)

De ontwikkeling van de Transcriptor (http://cls.ru.nl/transcriptor/) is mogelijk gemaakt door een subsidie van het programma Creatieve industrie – KIEM, aangevraagd door Nicoline van der Sijs, met als partners, naast het Meertens Instituut, de Radboud Universiteit, de Nederlandse Taalunie, VRT, NOS, het Genootschap Onze Taal, ANP en DecoType. De tool is ontwikkeld door Pepijn Hendriks en Martin Reynaert. De Transcriptor is gebaseerd op een bij Tilburg University ontwikkeld CLAM webservicesysteem waarop Matje van de Camp van het bedrijf De Taalmonsters de webapplicatie heeft gebouwd.