Mismatches machinevertaling oplossen: betere data is belangrijker dan meer data

Machinevertaling (MT) — zoals Google Translate — is de afgelopen jaren sterk verbeterd. Er bestaan ook systemen die automatisch kunnen voorspellen of een vertaling goed is. Deze worden Quality Estimation (QE)-systemen genoemd. De meeste vertaalsystemen worden getraind met algemene teksten, zoals nieuwsartikelen of websites. Problemen ontstaan wanneer ze veel nieuwe woorden en schrijfstijlen tegenkomen waarop ze niet zijn getraind. Dit probleem wordt een domeinmismatch genoemd. Javad Pourmostafa Roshan Sharami stelt voor om data op slimmere manieren te gebruiken om dit te voorkomen. Hij promoveerde op 4 maart.

Dankzij moderne AI zijn vertalingen tegenwoordig snel en vaak erg indrukwekkend. Maar er is nog steeds een groot probleem. Wanneer systemen wordt gevraagd iets heel specifieks te vertalen — zoals een medisch rapport, een juridisch contract of technische instructies — hebben ze daar vaak moeite mee.

Sharami: ‘Mijn promotieonderzoek kijkt naar hoe we dit probleem kunnen oplossen, zonder AI-modellen simpelweg groter en duurder te maken. In plaats van te focussen op grootte, richt ik me op het slimmer gebruiken van data. Ten eerste laat ik zien dat we geen enorme hoeveelheden data nodig hebben om gespecialiseerde vertalingen te verbeteren. Een kleine hoeveelheid zorgvuldig gekozen voorbeelden werkt vaak beter dan grote hoeveelheden gemengde informatie.

Geen volledige hertraining

Ten tweede bestudeer ik hoe we systemen kunnen trainen die de kwaliteit van vertalingen voorspellen, zodat ze betrouwbaar blijven in verschillende domeinen en talen. Dit helpt bedrijven tijd en geld te besparen, omdat ze weten wanneer een vertaling goed genoeg is.

Ten derde laat ik zien dat zelfs de manier waarop AI woorden opsplitst in kleinere stukjes belangrijk is. Het kiezen van de juiste methode zorgt ervoor dat systemen zich beter aanpassen aan nieuwe onderwerpen. Tot slot laat ik zien dat QE-systemen grote AI-modellen kunnen begeleiden tijdens het vertalen, waardoor ze zich efficiënt kunnen aanpassen zonder volledige hertraining.

De belangrijkste boodschap van mijn onderzoek is: “betere data is belangrijker dan meer data.” Door informatie zorgvuldig te selecteren en aan te passen, kunnen we vertaalsystemen bouwen die nauwkeuriger, efficiënter en beter geschikt zijn voor professioneel gebruik in de praktijk.’

Meer informatie

De titel van Javad Pourmostafa Roshan Sharams proefschrift is: ‘Toward Domain-Specific Machine Translation and Quality Estimation Systems’. Als u meer wilt weten over zijn onderzoek, kunt u contact met hem opnemen via j.pourmostafa@tilburguniversity.edu

Dit artikel is een ingezonden bericht en valt buiten de verantwoordelijkheid van de redactie.

Industry Wire

Geplaatst door Tilburg University

Mismatches machinevertaling oplossen: betere data is belangrijker dan meer data

Geen volledige hertraining

Mismatches machinevertaling oplossen: betere data is belangrijker dan meer data

Geen volledige hertraining

Deel dit bericht