AI Betere technologie zou veel goeds kunnen doen voor sprekers van minderheidstaal, maar het zou ze ook gemakkelijker kunnen monitoren
AI – Als je een sms-bericht in het Mongools wilt verzenden, kan dat lastig zijn: het is een script dat de meeste software niet herkent. Maar voor sommige mensen in Binnen-Mongolië, een autonome regio in het noorden van China, is dat een goede zaak.
Toen de autoriteiten in Binnen-Mongolië in 2020 aankondigden dat de taal niet langer de onderwijstaal op scholen zou zijn, vreesden etnische Mongolen – die ongeveer 18% van de bevolking uitmaken – het verlies van hun taal, een van de laatst overgebleven kenmerken van hun taal. onderscheidende identiteit. Het nieuws en vervolgens de plannen voor protest stroomden via WeChat, de grootste berichtendienst van China. Al snel marcheerden ouders met duizenden door de straten van de plaatselijke hoofdstad en eisten dat de beslissing werd teruggedraaid.
Met de opmerkelijke uitzondering van de zogenaamde Zero Covid- protesten van 2022 zijn demonstraties van welke omvang dan ook ongelooflijk zeldzaam in China, deels omdat online surveillance grote aantallen mensen verhindert openlijk gevoelige kwesties in het Mandarijn te bespreken, laat staan het plannen van openbare marsen. Omdat geautomatiseerde surveillancetechnologieën het echter moeilijk hadden met het Mongools, hadden demonstranten het voordeel dat ze in relatieve vrijheid konden coördineren.
De meeste schrijfsystemen ter wereld zijn gedigitaliseerd met behulp van gecentraliseerde standaardcode (bekend als Unicode), maar het Mongoolse schrift was zo slordig gecodeerd dat het nauwelijks bruikbaar is. In plaats daarvan gebruiken mensen een wirwar van concurrerende, vaak incompatibele programma’s wanneer ze Mongools moeten typen.
WeChat heeft een Mongools toetsenbord, maar het is onhandig en gebruikers geven er vaak de voorkeur aan om elkaar schermafbeeldingen van tekst te sturen. De voortdurende uitwisseling van beelden is ongemakkelijk, maar heeft het onbedoelde voordeel dat het voor de autoriteiten veel ingewikkelder is om te controleren en te censureren.
Op 60 na worden alle ongeveer 7.000 talen in de wereld door onderzoekers op het gebied van kunstmatige intelligentie als “weinig hulpbronnen” beschouwd. Mongools behoort tot de overgrote meerderheid van de talen die nauwelijks op het internet vertegenwoordigd zijn en waarvan de sprekers te maken krijgen met veel uitdagingen die voortvloeien uit de dominantie van het Engels op het mondiale internet. Naarmate de technologie verbetert, kunnen geautomatiseerde processen op internet – van zoekmachines tot sociale-mediasites – een stuk beter gaan werken voor talen met onvoldoende middelen.
Dit zou veel goeds kunnen opleveren, doordat deze taalsprekers toegang krijgen tot allerlei instrumenten en markten, maar het zal waarschijnlijk ook de mate verminderen waarin talen als het Mongools onder de radar van de censuur blijven. De afweging voor talen die historisch gezien aan de rand van het internet hebben gestaan, is tussen veiligheid en gemak aan de ene kant, en vrijheid van censuur en opdringerig afluisteren aan de andere kant.
Toen ouders in Binnen-Mongolië berichten op WeChat plaatsten over hun plannen om te protesteren, werd het duidelijk dat de algoritmen van de app de jpegs van Mongools cursief niet konden begrijpen, zei Soyonbo Borjgin, een lokale journalist die verslag deed van de protesten. De beelden en de lange gesproken berichten die demonstranten uitwisselden, werden beschermd door de onwetendheid van de Chinese staat: er waren geen AI-middelen beschikbaar om ze te monitoren, en overwerkte politievertalers hadden weinig kans om alle mogelijk subversieve communicatie in de gaten te houden.
De inspanningen van China om de Mongoolse taal binnen zijn grenzen te onderdrukken zijn sinds de protesten alleen maar toegenomen . Borjgin was geïnteresseerd in de technologische dimensies van de strijd en begon een machinaal leersysteem te onderzoeken dat werd ontwikkeld aan de Universiteit van Binnen-Mongolië. Het systeem zou computers in staat stellen afbeeldingen van het Mongoolse schrift te lezen, nadat ze waren gevoed en getraind met digitale stapels gedrukt materiaal die waren gepubliceerd toen het Mongools nog Chinese staatssteun had.
Terwijl hij het verhaal rapporteerde, kreeg Borjgin van de hoofdonderzoeker te horen dat het project staatsgeld had ontvangen. Borjgin beschouwde dit als een duidelijk signaal: de onderzoekers kregen financiering omdat wat ze deden neerkwam op een staatsveiligheidsproject. De technologie zou waarschijnlijk worden gebruikt om toekomstige dissidente organisaties te voorkomen.
Tot voor kort heeft AI alleen goed gewerkt voor het verdwijnend kleine aantal talen met grote hoeveelheden teksten waarop de technologie kan worden getraind. Zelfs nationale talen met honderden miljoenen sprekers, zoals Bangla, zijn grotendeels buiten de prioriteiten van technologiebedrijven gebleven. Vorig jaar kondigden zowel Google als Meta echter projecten aan om AI te ontwikkelen voor talen met weinig middelen. Maar hoewel nieuwere AI-modellen enige output in een breed scala aan talen kunnen genereren, is er niet veel bewijs dat erop wijst dat deze van hoge kwaliteit is.
Gabriel Nicholas, een onderzoeker bij het Center for Democracy and Technology, legde uit dat zodra technologiebedrijven het vermogen hebben ontwikkeld om een nieuwe taal te verwerken, ze de neiging hebben zichzelf te feliciteren en dan verder te gaan. Een markt die gedomineerd wordt door “grote” talen geeft hen weinig prikkels om te blijven investeren in verbeteringen. Hellina Nigatu, een PhD-studente in computerwetenschappen aan de Universiteit van Californië, Berkeley, voegde eraan toe dat talen met weinig hulpbronnen het risico lopen “voortdurend te proberen de achterstand in te halen” – of zelfs sprekers te verliezen – ten opzichte van het Engels.
Onderzoekers waarschuwen ook dat zelfs als de nauwkeurigheid van automatische vertalingen verbetert, taalmodellen belangrijke, cultureel specifieke details missen die gevolgen in de echte wereld kunnen hebben. Bedrijven als Meta, die gedeeltelijk afhankelijk zijn van AI om berichten op sociale media te beoordelen op zaken als haatzaaiende uitlatingen en geweld, zijn in de problemen gekomen wanneer ze de technologie proberen te gebruiken voor talen met onvoldoende middelen. Omdat ze zijn getraind in slechts de weinige beschikbare teksten, hebben hun AI-systemen maar al te vaak een onvolledig beeld van wat woorden betekenen en hoe ze worden gebruikt.
Arzu Geybulla, een Azerbeidzjaanse journalist die gespecialiseerd is in digitale censuur, zei dat een probleem met het gebruik van AI om sociale media-inhoud in talen met weinig middelen te modereren het “gebrek aan begrip van culturele, historische en politieke nuances is in de manier waarop de taal wordt gebruikt. op deze platforms.” In Azerbeidzjan, waar geweld tegen Armeniërs regelmatig online wordt gevierd, wordt het woord ‘Armeens’ zelf vaak gebruikt als scheldwoord om dissidenten aan te vallen.
Omdat de term in de meeste andere contexten onschadelijk is, kunnen AI en zelfs niet-gespecialiseerde menselijke moderators gemakkelijk het gebruik ervan over het hoofd zien. Ze merkte ook op dat AI die door sociale-mediaplatforms wordt gebruikt de Azerbeidzjaanse taal vaak op één hoop gooit met talen die in de buurlanden worden gesproken: Azerbeidzjanen sturen haar regelmatig screenshots van geautomatiseerde antwoorden in het Russisch of Turks op de haatzaaiende berichten die ze in het Azerbeidzjaans hadden ingediend.
Maar Geybulla gelooft dat het verbeteren van AI voor het monitoren van haatzaaiende uitlatingen en ophitsing in het Azerbeidzjaans een in wezen defect systeem zal blokkeren. “Ik ben absoluut tegen het trainen van het algoritme”, vertelde ze me. “Contentmoderatie moet in alle contexten door mensen worden gedaan.” In de handen van een autoritaire regering kan geavanceerde AI voor voorheen verwaarloosde talen een instrument voor censuur worden.
Volgens Geybulla heeft Azerbeidzjan momenteel zo’n ouderwets systeem van toezicht en autoritarisme dat het mij niet zou verbazen als ze nog steeds op Sovjetmethoden vertrouwen. Gezien de getoonde bereidheid van de regering om mensen gevangen te zetten voor wat ze online zeggen en deel te nemen aan massale online astroturfing , is zij van mening dat het verbeteren van de automatische markering van de Azerbeidzjaanse taal de repressie alleen maar erger zou maken.
In plaats van deze gemakkelijk te misbruiken technologieën te versterken, pleit ze ervoor dat bedrijven moeten investeren in menselijke moderators. “Als ik niet-authentieke accounts op Facebook kan identificeren, kan iemand op Facebook dat zeker ook doen, en sneller dan ik”, zei ze.
Verschillende talen vereisen verschillende benaderingen bij het bouwen van AI. Inheemse talen in Amerika vertonen bijvoorbeeld vormen van complexiteit die moeilijk te verklaren zijn zonder grote hoeveelheden gegevens – waar ze momenteel niet over beschikken – of zorgvuldig toezicht van deskundigen.
Een van die experts is Michael Running Wolf, oprichter van het First Languages AI Reality-initiatief, die zegt dat ontwikkelaars de uitdaging van Amerikaanse talen onderschatten. Terwijl hij als onderzoeker aan Alexa van Amazon werkte, begon hij zich af te vragen wat hem ervan weerhield spraakherkenning te ontwikkelen voor Cheyenne, de taal van zijn moeder.
Een deel van het probleem, zo realiseerde hij zich, was de onwil van computerwetenschappers om te erkennen dat Amerikaanse talen uitdagingen met zich mee zouden kunnen brengen die hun algoritmen niet konden begrijpen. “Alle talen worden gezien door de lens van het Engels”, vertelde hij me.
Running Wolf denkt dat het anglocentrisme vooral verantwoordelijk is voor de verwaarlozing waarmee inheemse talen in de technische wereld te maken hebben gehad. “Het AI-veld wordt, net als elke andere ruimte, ingenomen door mensen die vastzitten in hun eigen manier van doen en onbedoeld een zeer koloniaal perspectief hebben”, vertelde hij me. “Het is niet zo dat we tot op de dag van vandaag niet de mogelijkheid hebben gehad om AI voor inheemse talen te creëren. Het interesseert gewoon niemand.”
Amerikaanse talen zijn doelbewust in deze positie gebracht. Tot ver in de 20e eeuw was het beleidsstandpunt van de Amerikaanse regering ten aanzien van inheemse Amerikaanse talen uitgeroeid. Van 1860 tot 1978 werden tienduizenden kinderen met geweld van hun ouders gescheiden en op kostscholen vastgehouden, waar het spreken van hun moedertaal afranselingen of erger met zich meebracht . Bijna alle inheemse Amerikaanse talen worden tegenwoordig met uitsterven bedreigd.
Running Wolf hoopt dat AI-hulpmiddelen zoals automatische vertaling ervoor zullen zorgen dat inheemse talen gemakkelijker vloeiend te leren zijn, waardoor het huidige gebrek aan materialen en leraren wordt gecompenseerd en de talen nieuw leven worden ingeblazen als primair communicatiemiddel.
Zijn project is ook afhankelijk van het trainen van jonge inheemse mensen in machinaal leren; hij heeft al een codeerbootcamp gehouden in het Lakota-reservaat. Als zijn inspanningen slagen, zei hij, “zullen we inheemse volkeren hebben die de experts zijn op het gebied van natuurlijke taalverwerking.” Running Wolf zei dat hij hoopt dat dit tribale naties zal helpen de broodnodige rijkdom op te bouwen binnen de bloeiende technologie-industrie.
Het idee dat zijn onderzoek geautomatiseerde surveillance van inheemse talen mogelijk maakt, maakt Running Wolf niet zo bang, vertelde hij me. Hij vergeleek hun toekomst online met hun huidige status in de basketbalwedstrijden op middelbare scholen die plaatsvinden in Noord- en Zuid-Dakota. Inheemse teams gebruiken Lakota om plays te callen zonder dat hun tegenstanders het begrijpen. “En raad eens? De niet-inheemse teams leren Lakota zodat ze weten wat de Lakota doen”, legt Running Wolf uit. “Ik denk dat dat eigenlijk een goede zaak is.”
Het probleem van surveillance is volgens hem ‘een probleem van succes’. Hij hoopt op een toekomst waarin inheemse computerwetenschappers “te maken krijgen met surveillancerisico’s omdat de technologie zo wijdverspreid is en zoveel mensen Chickasaw spreken, zoveel mensen Lakota of Cree of Ute spreken – er zijn zoveel sprekers die de NSA nu nodig heeft. de AI zodat ze ons kunnen monitoren”, verwijzend naar de Amerikaanse National Security Agency, berucht vanwege zijn snuffelen in de communicatie in binnen- en buitenland.
Niet iedereen wenst die toekomst. De Cheyenne Nation bijvoorbeeld wil weinig met buitenstaanders te maken hebben, vertelde hij me, en is momenteel niet geïnteresseerd in het gebruik van de systemen die hij aan het bouwen is. “Ik misgun dat perspectief niet, want dat is een volkomen gezonde reactie op tientallen jaren, generaties van uitbuiting,” zei hij.
Net als Running Wolf gelooft Borjgin dat het openstellen van een taal voor online surveillance in sommige gevallen een opoffering is die nodig is om deze in het digitale tijdperk levend te houden. “Ik besta enigszins niet op internet”, zei hij. Omdat hun taal zo’n kleine onlinecultuur heeft, zei hij, “is er een identiteitscrisis voor Mongolen die in de stad zijn opgegroeid”, waardoor ze in plaats daarvan richting het Mandarijn worden geduwd.
Ondanks de intense politieke repressie waarmee sommige andere etnische minderheden in China worden geconfronteerd, zei Borjgin: “Een ding waar ik jaloers op ben aan Tibetanen en Oeigoers is dat als ik ze iets vraag, ze het gewoon googlen met hun eigen invoersysteem en dat ze het resultaat in één keer kunnen vinden. seconde.”
Ook al weet hij dat het zal worden gebruikt om afwijkende meningen te onderdrukken, steunt Borjgin nog steeds het verbeteren van de digitalisering van het Mongoolse schrift: “Als je niet over de geavanceerde technologie beschikt, als het alleen bij de gedrukte boeken blijft, dan zal de taal worden uitgeroeid . Ik denk dat de afweging voor mij oké is.”