
Wikipedia – Door AI vertaalde artikelen werden bronnen verwisseld of zinnen zonder bronvermelding en uitleg toegevoegd, terwijl andere artikelen alinea’s toevoegden die afkomstig waren uit totaal ander materiaal.
De redactie van Wikipedia heeft nieuw beleid ingevoerd en een aantal bijdragers die betaald werden om met behulp van AI bestaande Wikipedia-artikelen naar andere talen te vertalen, beperkingen opgelegd. Dit gebeurde nadat was ontdekt dat deze AI-vertalingen AI-“hallucinaties”, oftewel fouten, aan het resulterende artikel toevoegden.
De nieuwe beperkingen laten zien hoe Wikipedia-redacteuren blijven strijden tegen de golf van generatieve AI op het internet, die de betrouwbaarheid van ’s werelds grootste kennisbank dreigt aan te tasten. Het incident onthult ook hoe zelfs goedbedoelde pogingen om Wikipedia uit te breiden vatbaar zijn voor fouten wanneer ze afhankelijk zijn van generatieve AI, en hoe deze fouten worden verholpen door het open bestuursmodel van Wikipedia.
Het probleem in deze zaak begint bij een organisatie genaamd de Open Knowledge Association (OKA), een non-profitorganisatie die zich inzet voor de verbetering van Wikipedia en andere open platforms.
“Dat doen we door maandelijks een vergoeding te geven aan voltijdse medewerkers en vertalers”, aldus de website van OKA. “We maken gebruik van AI (Large Language Models) om het grootste deel van het werk te automatiseren.”
Het probleem is dat redacteuren begonnen op te merken dat sommige van deze vertalingen fouten in artikelen introduceerden. Zo citeert een conceptvertaling van een Wikipedia-artikel over de Franse koninklijke familie La Bourdonnaye een boek en een specifiek paginanummer bij de bespreking van de oorsprong van de familie. Een Wikipedia-redacteur, Ilyas Lebleu, die op Wikipedia bekend staat als Chaotic Enby, controleerde die bron en ontdekte dat de betreffende pagina in dat boek “helemaal niet over de familie La Bourdonnaye gaat”.
“Om het foutenpercentage te meten, besloot ik tijdens de discussie een steekproefsgewijze controle uit te voeren op de eerste paar vertalingen die werden genoemd, en ik ontdekte daar al een paar fouten. Het gaat dus niet alleen om willekeurig gekozen gevallen,” vertelde Lebleu me. “Sommige artikelen hadden bronnen verwisseld of zinnen zonder bronvermelding toegevoegd, zonder enige uitleg, terwijl er bij het artikel over de Franse Senaatsverkiezingen van 1879 paragrafen waren toegevoegd die afkomstig waren uit materiaal dat totaal niets met het geschrevene te maken had!”
Naarmate de Wikipedia-redacteuren meer OKA-vertaalde artikelen bekeken, ontdekten ze meer problemen.
“Veel van de resultaten zijn zeer problematisch, met een groot aantal […] redacteuren die duidelijk zeer gebrekkig Engels spreken, hun werk niet nalezen (of niet in staat zijn problemen te zien) en geen links toevoegen, enzovoort,” aldus een Wikipedia-pagina over de OKA-vertaling . Dezelfde Wikipedia-pagina merkt ook op dat het kopiëren en plakken door OKA-vertalers in sommige gevallen de opmaak van bepaalde artikelen verstoort.
Wikipedia-redacteuren onderzochten de werkwijze van OKA en ontdekten dat het bedrijf voornamelijk gebruikmaakte van goedkope arbeidskrachten van aannemers in het mondiale Zuiden. Deze aannemers kregen de opdracht om artikelen te kopiëren en te plakken in populaire LLM’s (Language Language Managers) om vertalingen te produceren.
Een voorbeeld hiervan is een openbaar spreadsheet dat door OKA-vertalers wordt gebruikt om bij te houden welke artikelen ze vertalen. Daarin staat de instructie: “Kies een artikel, kopieer de inleiding naar Gemini of chatGPT en controleer vervolgens of de suggesties de leesbaarheid verbeteren. Bewerk de Wiki-artikelen alleen als de suggesties een verbetering zijn en de betekenis van de inleiding niet veranderen. Wijzig de inhoud niet, tenzij je hebt gecontroleerd of wat Gemini aangeeft correct is!”
Lebleu vertelde mij, en andere redacteuren hebben dit ook opgemerkt tijdens hun openbare discussie over de kwestie, dat dezelfde instructies OKA-vertalers eerder al opdroegen om Grok, Elon Musks LLM, voor hetzelfde doel te gebruiken. Grok, dat ook een volledig geautomatiseerd alternatief voor Wikipedia produceert genaamd Grokepedia, is juist foutgevoelig omdat het geen mensen gebruikt om de output te controleren.
“Het gebruik van Grok bleek controversieel, met name gezien de redenen waarom Grok de laatste tijd in het nieuws is geweest. Een recent intern onderzoek toonde aan dat ChatGPT en Claude nauwkeuriger presteren, wat ertoe leidde dat ze een paar dagen geleden zijn overgestapt. Ze bevelen Grok echter nog steeds aan als ‘waardevol voor ervaren redacteuren die complexe artikelen met veel sjablonen verwerken’,” vertelde Lebleu me.
Uiteindelijk besloten de redacteuren om beperkingen op te leggen aan OKA-vertalers die meerdere fouten maken, maar OKA-vertalingen niet in principe te blokkeren.
“OKA-vertalers die binnen zes maanden vier (terecht ingediende) waarschuwingen hebben ontvangen over inhoud die de verificatie niet doorstaat, worden zonder verdere waarschuwing geblokkeerd als er zich een nieuw voorbeeld voordoet”, schreven de Wikipedia-redacteuren. “Inhoud die is toegevoegd door een OKA-vertaler die vervolgens wordt geblokkeerd omdat de verificatie niet is doorstaan, kan in beginsel worden verwijderd […] tenzij een redacteur die te goeder trouw handelt bereid is de verantwoordelijkheid ervoor op zich te nemen.”
Een vacature voor een “Wikipedia-vertaler” van OKA biedt $397 per maand voor maximaal 40 uur per week. In de vacaturetekst staat dat van vertalers wordt verwacht dat ze “5-20 artikelen per week publiceren (afhankelijk van de omvang)”.
“Ze maken gebruik van machinevertaling om het proces te versnellen. We hebben al meer dan 1500 artikelen gepubliceerd en dat aantal groeit elke dag”, aldus de vacaturetekst.
“Gezien deze precaire status ben ik bang dat meer onzekerheid over de taken van vertalers kan leiden tot een overbelasting van verantwoordelijkheden, wat zorgwekkend is omdat zelfstandige contractanten niet per se dezelfde bescherming genieten als betaalde werknemers,” schreef Lebleu in de openbare Wikipedia-discussie over OKA .
Jonathan Zimmermann, de oprichter en voorzitter van OKA, die bekend staat onder de gebruikersnaam 7804j.
Op Wikipedia werd me verteld dat vertalers per uur betaald worden, niet per artikel, en dat er geen vast aantal artikelen is om te vertalen.
“We leggen de nadruk op kwaliteit boven snelheid,” schreef Zimmerman me in een e-mail. “Sommige problematische gevallen betroffen juist een ongewoon hoge output in verhouding tot de bestede tijd – wat achteraf gezien een waarschuwingssignaal was. Die gevallen werden gedreven door individueel enthousiasme en snelheid, en niet door institutionele druk.”
Zimmerman vertelde me dat “er absoluut fouten voorkomen”, maar dat het proces van OKA menselijke controle omvat, dat vertalers hun werk moeten controleren aan de hand van geciteerde bronnen, en dat “hoofdredacteuren periodiek voorbeelden beoordelen, vooral van nieuwe vertalers”.
“Naar aanleiding van de recente discussie hebben we onze waarborgen versterkt”, vertelde Zimmerman me. “We introduceren nu een tweede, onafhankelijke LLM-beoordelingsstap. Vertalers moeten het voltooide concept door een apart model halen met behulp van een speciale vergelijkingsopdracht. Deze opdracht is ontworpen om mogelijke discrepanties, weglatingen of onnauwkeurigheden ten opzichte van de brontekst te identificeren. De eerste bevindingen wijzen erop dat dit zeer effectief is in het opsporen van potentiële problemen.”
Zimmerman voegde eraan toe dat OKA overweegt formele collegiale toetsingsmechanismen in te voeren als deze methode onvoldoende blijkt.
Het gebruik van AI om de output van AI te controleren op fouten is een methode die van oudsher foutgevoelig is. Zo berichtten we onlangs over een particuliere school die AI gebruikte om door AI gegenereerde vragen voor leerlingen te controleren. Interne tests wezen uit dat dit minstens 10 procent van de vragen foutief maakte.
“Ik ben het ermee eens dat het gebruik van AI om AI te controleren absoluut kan mislukken – en in sommige contexten kan het zelfs met een zeer hoog percentage mislukken. We gaan er niet van uit dat het secundaire model op zichzelf betrouwbaar is”, aldus Zimmerman. “Het belangrijkste punt is dat we menselijke verificatie niet vervangen door geautomatiseerde verificatie. Het tweede model is een aanvulling op de handmatige controle, geen vervanging ervan.”
“Wanneer een gecoördineerd project AI-tools gebruikt en op grote schaal opereert, trekt dat de aandacht. Ik begrijp waarom redacteuren dat nauwlettend in de gaten houden. Uiteindelijk heeft de discussie verwachtingen vastgelegd die grotendeels overeenkomen met ons bestaande interne beleid”, voegde Zimmerman eraan toe. “Deze beperkingen gelden echter specifiek voor OKA-vertalers. Ik zou er de voorkeur aan geven dat de normen voor iedereen gelijkelijk gelden, maar ik erken ook dat georganiseerde, gefinancierde projecten vaak aan hogere eisen moeten voldoen.”






