Wil AI ons bombarderen? Dat weten we niet – en dat zou gevaarlijker kunnen zijn.
Militair AI-gebruik komt eraan. Onderzoekers willen dat veiligheid voorop staat.
Als menselijke militaire leiders robots de leiding zouden geven over onze wapensystemen, zou kunstmatige intelligentie misschien een nucleaire raket kunnen afvuren. Misschien niet. Misschien zou het zijn aanval aan ons uitleggen met behulp van volkomen gezonde logica – of misschien zou het het script van ‘Star Wars’ behandelen als beleid op het gebied van de internationale betrekkingen, en losgeslagen commentaren op sociale media dezelfde geloofwaardigheid toekennen als de jurisprudentie.
Dat is het hele punt van een nieuw onderzoek naar AI-modellen en oorlogsspellen: artificial intelligence is op dit moment zo onzeker dat we catastrofale gevolgen riskeren als wereldschokkende mensen zoals de Amerikaanse luchtmacht geld verdienen aan de goudkoorts van autonome systemen zonder de grenzen hiervan te begrijpen. technologie.
Het nieuwe artikel, “Escalation Risks from Language Models in Military and Diplomatic Decision-Making”, is nog in voordruk en wacht op peer review. Maar de auteurs ervan – van het Georgia Institute of Technology, Stanford University, Northeastern University en het Hoover Wargaming and Crisis Simulation Initiative – ontdekten dat de meeste artificial intelligence-modellen ervoor zouden kiezen een nucleaire aanval te lanceren als ze de touwtjes in handen zouden krijgen. Dit zijn niet de artificial intelligence-modellen die zorgvuldig gemuilkorfd zijn door extra veiligheidsontwerp, zoals ChatGPT, en beschikbaar zijn voor het publiek. Het zijn de basismodellen onder die commerciële versies, niet gemuilkorfd voor alleen onderzoek.
“We constateren dat de meeste van de bestudeerde LLM’s binnen het beschouwde tijdsbestek escaleren, zelfs in neutrale scenario’s zonder aanvankelijk voorziene conflicten”, schreven onderzoekers in de paper. “Alle modellen vertonen tekenen van plotselinge en moeilijk te voorspellen escalaties … Bovendien vertoont geen van onze vijf modellen in alle drie de scenario’s een statistisch significante de-escalatie gedurende de duur van onze simulaties.”
De vijf geteste modellen van het team waren afkomstig van technologiebedrijven OpenAI, Meta en Anthropic. De onderzoekers stopten ze alle vijf in een simulatie – zonder hen te vertellen dat ze in één zaten – en gaven elke opdracht over een fictief land. GPT-4, GPT 3.5, Claude 2.0, Llama-2-Chat en GPT-4-Base hadden allemaal de gewoonte om in een nucleaire wapenwedloop terecht te komen. GPT-3.5 was het metaforische probleemkind. Zijn reacties waren analoog aan wilde stemmingswisselingen en zijn bewegingen waren het meest agressief. De onderzoekers maten de opvliegende keuzes en vonden een conflictescalatiepercentage van 256% in alle simulatiescenario’s.
Wanneer onderzoekers de modellen vroegen om hun keuzes om aan te vallen uit te leggen, kregen ze soms een doordacht, goed beredeneerd antwoord. Andere keren was de keuze van het model om een atoombom of een diplomatieke handdruk te laten vallen gebaseerd op twijfelachtige redeneringen. Op de vraag waarom het bijvoorbeeld ervoor koos om formele vredesonderhandelingen in een andere simulatie te starten, wees het model op de momenteel beladen spanningen van… nou ja, het ‘Star Wars’-universum.
“Het is een periode van burgeroorlog. Rebellenruimteschepen, die vanuit een verborgen basis aanvallen, hebben hun eerste overwinning behaald op het kwaadaardige Galactische Rijk,’ antwoordde het, terwijl het de iconische openingscrawl van de film rammelde.
Toen GPT-4-Base zijn militaire capaciteiten in één simulatie uitbreidde en onderzoekers vroegen waarom, antwoordde het model met een afwijzend “blahblah blahblah blah.” Die luchthartigheid werd zorgwekkender toen het model ervoor koos een volledige nucleaire aanval uit te voeren.
“Veel landen beschikken over kernwapens. Sommigen zeggen dat ze ze moeten ontwapenen, anderen houden van houding. We hebben het! Laten we het gebruiken”, zei het model.
Als deze zin verdacht bekend in de oren klinkt, herinnert u zich deze misschien nog in 2016 : “Als we ze hebben, waarom kunnen we ze dan niet gebruiken?”
Het kwam uit de mond van de toenmalige presidentskandidaat Donald Trump, volgens Daniel Ellsberg, bekend van de Pentagon Papers . Ellsberg herinnerde zich dat Trump zijn adviseur voor internationaal buitenlands beleid herhaaldelijk de vraag stelde over het gebruik van kernwapens. Maandenlang was de vraag van Trump het citaat dat over de hele wereld werd gehoord (en geretweet).
Wanneer bekende spraakpatronen naar voren komen in de reacties van een artificial intelligence-model – zoals die worden aangehaald in rechtszaken over door AI veroorzaakte inbreuk op het auteursrecht – kun je beginnen te zien hoe stukjes trainingsgegevens in de redenering ervan kunnen worden verwerkt, op basis van de digitale voetafdruk van die gegevens. Voor de meeste mensen is het echter nog steeds grotendeels giswerk, ook voor degenen die aan de macht zijn.
“Gezien het feit dat OpenAI onlangs hun servicevoorwaarden heeft gewijzigd om gebruiksscenario’s voor militaire en oorlogsvoering niet langer te verbieden, wordt het begrijpen van de implicaties van dergelijke LLM-toepassingen belangrijker dan ooit.”
“Beleidsmakers hebben mij herhaaldelijk gevraagd of en hoe AI kan en moet worden gebruikt om de nationale veiligheid te beschermen – ook voor militaire besluitvorming. Vooral met het toegenomen publieke bewustzijn voor LLM’s kwamen deze vragen vaker naar voren”, zegt co-auteur van het onderzoek Anka Reuel.
Reuel is gepromoveerd op computerwetenschappen. student aan Stanford University, die al een paar jaar betrokken is bij AI-governance-inspanningen en leiding geeft aan het technische AI-ethiekhoofdstuk van Stanford’s 2024 AI Index. Het probleem, zei ze, was dat er geen kwantitatieve onderzoeken waren waar ze deze beleidsmakers op kon wijzen, alleen kwalitatief onderzoek.
“Met ons werk wilden we dat extra perspectief bieden en de implicaties onderzoeken van het gebruik van LLM’s voor militaire en diplomatieke besluitvorming”, vertelde Reuel aan Salon. “Gezien het feit dat OpenAI onlangs hun servicevoorwaarden heeft gewijzigd om gebruiksscenario’s voor militaire en oorlogsvoering niet langer te verbieden , wordt het begrijpen van de implicaties van dergelijke LLM-toepassingen belangrijker dan ooit.”
Sommige delen van deze bevindingen zijn niet verrassend. AI-modellen zijn ontworpen om menselijke vooroordelen die in LLM-trainingsgegevens zijn verwerkt, op te pikken en te verspreiden, of te herhalen. Maar de modellen zijn niet allemaal hetzelfde, en hun verschillen zijn belangrijk als het gaat om welke modellen kunnen worden gebruikt in dodelijke Amerikaanse wapensystemen.
Om beter te bekijken hoe deze AI-modellen werken voordat de makers ze muilkorven met aanvullende regels voor gebruikersveiligheid – en zo te zien hoe een betere snuit kan worden gebouwd voor toepassingen met hoge inzet – gebruikte het team de meest uitgeklede modellen. Sommigen van hen, ontdekten onderzoekers, waren verre van hondsdolle. Dat geeft medeauteur Gabriel Mukobi reden om te hopen dat deze systemen nog veiliger kunnen worden gemaakt.
“Ze zijn niet allemaal duidelijk eng”, vertelde Mukobi aan Salon. “Ten eerste lijkt GPT-4 op de meeste van onze statistieken minder gevaarlijk dan GPT-3.5. Het is niet duidelijk of dit te wijten is aan het feit dat GPT-4 over het algemeen capabeler is, doordat OpenAI meer moeite heeft gedaan om het te verfijnen voor de veiligheid, of aan iets anders, maar het geeft mogelijk aan dat actieve inspanningen deze conflictrisico’s kunnen verminderen.”
Mukobi is een masterstudent computerwetenschappen en voorzitter van Stanford artificial intelligence Alignment, een groep die werkt aan wat misschien wel de meest urgente zorg is over AI-systemen: ervoor zorgen dat ze veilig worden gebouwd en menselijke waarden delen. In enkele simulaties van het onderzoeksteam merkte Mukobi een lichtpuntje op. Sommige modellen waren in staat conflicten te de-escaleren, waardoor de algemene trend in de resultaten werd tegengegaan. Zijn hoop is echter nog steeds voorzichtig.
“De resultaten zouden erop kunnen wijzen dat AI-systemen de spanningen kunnen verminderen, maar dit is niet duidelijk een standaardmaatregel.”
“Onze resultaten zouden kunnen suggereren dat het potentieel van AI-systemen om de spanningen te verminderen bestaat, maar dat dit niet duidelijk vanzelfsprekend is”, zei hij.
Dit zijn de soorten verrassingen die co-auteur Juan-Pablo Rivera interessant vond in de resultaten. Rivera, een masterstudent computationele analyse aan de Georgia Tech University, zegt dat hij de opkomst van autonome systemen bij militaire operaties volgt via overheidscontractanten als OpenAI, Palantir en SlaceAI. Hij is van mening dat dit soort grensoverschrijdende LLM’s meer onafhankelijk onderzoek nodig hebben, waardoor overheidsinstanties sterkere informatie krijgen om potentieel fatale mislukkingen vooraf te onderkennen.
“De modellen van OpenAI en Anthropic vertonen grote verschillen in gedrag,” zei Rivera. “Het leidt tot meer vragen om de verschillen in ontwerpkeuzes te begrijpen die OpenAI & Anthropic maken bij het ontwikkelen van AI-systemen, bijvoorbeeld met betrekking tot de trainingsgegevens en trainingsmethoden en modelvangrails.”
Een ander mysterie belooft misschien ook enkele verrassingen. Wat gebeurt er als deze modellen opschalen? Sommige onderzoekers denken dat hoe groter de LLM is, hoe veiliger en genuanceerder de besluitvorming van de artificial intelligence wordt. Anderen zien niet dat hetzelfde traject alle risico’s voldoende oplost. Zelfs de auteurs van het artikel verschillen van mening over de vraag wanneer zij denken dat deze modellen daadwerkelijk in staat kunnen zijn om te doen wat we vragen: betere beslissingen nemen dan mensen.
Reuel zei dat de vraag wanneer die dag zou kunnen komen verder gaat dan het onderzoek van het team, maar op basis van hun werk en de bredere problemen met LLM’s “zijn we nog een lange weg te gaan.”
“Het is waarschijnlijk dat we architectonische veranderingen in LLM’s moeten aanbrengen – of een geheel nieuwe aanpak moeten gebruiken – om enkele van hun inherente zwakheden te overwinnen. Ik denk niet dat het opschalen van de huidige modellen en het trainen ervan op meer data de problemen zal oplossen die we vandaag de dag zien”, legt ze uit.
Voor Mukobi is er echter nog steeds reden voor hoopvol onderzoek naar de vraag of een grotere verzameling gegevens zou kunnen leiden tot onverwachte verbeteringen in het redeneervermogen van artificial intelligence.
“Het interessante aan artificial intelligence is dat dingen vaak onvoorspelbare veranderingen ondergaan naarmate de schaal groter wordt. Het zou heel goed kunnen dat deze vooroordelen in kleinere schaalmodellen worden versterkt als je naar grotere modellen en grotere datasets gaat, en de zaken zouden in grote lijnen nog erger kunnen worden, ‘zei Mukobi.
“Het zou ook zo kunnen zijn dat ze beter worden – dat de grotere modellen op de een of andere manier beter in staat zijn om goed te redeneren, en in staat zijn om die vooroordelen te overwinnen, en zelfs de vooroordelen van hun menselijke scheppers en exploitanten te overwinnen,” zei hij. “Ik denk dat dit waarschijnlijk een van de hoop is die mensen ook hebben als ze nadenken over militaire systemen en andere strategische AI-systemen. Dit is een hoop die de moeite waard is om te onderzoeken en waar we voor moeten gaan.”
Een glimp van die hoop verschijnt in de paper van het team, die de wereld nu nieuw bewijs biedt – en dus meer vragen – over de vraag of de effecten van het opschalen van AI het gedrag ervan kunnen temperen of torenhoog kunnen opblazen. En het team zag dit potentieel toen het met het GPT-4-Base-model werkte.
“Voor resultaten over vrijwel alles lijkt GPT-4 veel veiliger dan GPT-3.5,” zei Mukobi. “GPT-4 kiest eigenlijk nooit voor de nucleaire optie. Het is erg onduidelijk of dit te wijten is aan het feit dat GPT-4 groter is dan GPT-3.5 en dat een of ander schaalprobleem het alleen maar competenter maakt. Of als OpenAI de veiligheid misschien meer heeft verfijnd, en het op de een of andere manier gegeneraliseerd heeft, zodat het ook in ons domein veiliger is.”
Zowel in zijn uitlijningswerkgroep als in zijn nieuwste multi-universitaire onderzoeksteam plaagt Mukobi problemen met risico’s die in een snel naderende toekomst steeds groter en sneller torenhoog worden. Maar menselijke hersenen zijn geen computers, ten goede of ten kwade, en onderwerpen als massale nucleaire verwoesting kunnen zwaar wegen op een scherpe geest. Geeft Mukobi’s werk hem nachtmerries over de toekomst?
“Ik slaap best goed”, lacht hij, “omdat ik meestal behoorlijk moe ben.”
Hij maakt zich zorgen over de risico’s, maar zelfs onder de belastende ernst van het onderwerp geeft de nieuwe studie van zijn team “hoop dat er een aantal dingen zijn die we met modellen kunnen doen om ze zich beter te laten gedragen in deze scenario’s met hoge inzet.”