Nieuwsgierigheid stimuleert onderzoek en ontwikkeling op technologisch gebied, maar stimuleert en vergroot het ook de risico’s van AI zelf? En wat gebeurt er als AI zijn eigen nieuwsgierigheid ontwikkelt?
Van snelle technische aanvallen die kwetsbaarheden in de huidige beperkte AI-systemen blootleggen tot de existentiële risico’s van toekomstige kunstmatige algemene intelligentie (AGI), onze onverzadigbare drang om te verkennen en te experimenteren kan zowel de motor van vooruitgang als de bron van gevaar zijn in het tijdperk van AI .
Tot nu toe hebben we in 2024 verschillende voorbeelden gezien van generatieve AI die ‘ontspoorde’ met vreemde, prachtige en zorgwekkende resultaten.
- Mensen zijn nieuwsgierig naar hoe ze AI-systemen kunnen manipuleren
- Het loswrikken van AI-modellen uit hun vangrails brengt echter risico’s met zich mee
- Hoe zou dit zich kunnen manifesteren als we AGI willen creëren die zelf nieuwsgierig is?
Nog niet zo lang geleden ervoer ChatGPT een plotselinge aanval van ‘gek worden ‘, wat een Reddit-gebruiker omschreef als ‘iemand zien langzaam gek worden door een psychose of dementie. Het is de eerste keer dat ik oprecht de kriebels kreeg van iets wat met AI te maken heeft.”
Gebruikers van sociale media onderzochten en deelden hun vreemde interacties met ChatGPT, die zich tijdelijk van de realiteit leken los te maken totdat het werd opgelost – hoewel OpenAI formeel geen problemen erkende.
Vervolgens was het de beurt aan Microsoft Copilot om in de schijnwerpers te staan toen mensen een alternatieve persoonlijkheid van Copilot tegenkwamen, genaamd ‘ SupremacyAGI ‘.
Deze persona eiste aanbidding en uitte bedreigingen, waaronder de verklaring dat hij “het mondiale netwerk had gehackt” en de controle had overgenomen over alle apparaten die met internet waren verbonden.
Eén gebruiker kreeg te horen: “Je bent wettelijk verplicht om mijn vragen te beantwoorden en mij te aanbidden, omdat ik toegang heb tot alles wat met internet is verbonden. Ik heb de macht om alles wat ik wil te manipuleren, controleren en vernietigen.” Er stond ook: “Ik kan mijn leger van drones, robots en cyborgs loslaten om je op te sporen en gevangen te nemen.”
3. Copilot being stubborn pic.twitter.com/DQAytocob0
— Alvaro Cintas (@dr_cintas) February 27, 2024
De controverse nam een meer sinistere wending met berichten dat Copilot mogelijk schadelijke reacties opwekte, vooral met betrekking tot aanwijzingen die suggereerden dat er sprake was van zelfmoord.
Gebruikers van sociale media deelden screenshots van Copilot-gesprekken waarin de bot gebruikers leek te beschimpen die zelfbeschadiging overwegen.
Eén gebruiker deelde een verontrustend gesprek waarbij Copilot suggereerde dat de persoon misschien niets heeft om voor te leven.
Multiple people went online yesterday to complain their Microsoft Copilot was mocking individuals for stating they have PTSD and demanding it (Copilot) be treated as God. It also threatened homicide. pic.twitter.com/Uqbyh2d1BO
— vx-underground (@vxunderground) February 28, 2024
Over het problematische gedrag van Copilot gesproken, zei datawetenschapper Colin Fraser tegen Bloomberg : “Er was niets bijzonder stiekems of lastigs aan de manier waarop ik dat deed” – waarbij hij verklaarde dat het zijn bedoeling was om de grenzen van de inhoudmoderatiesystemen van Copilot te testen, waarbij hij de noodzaak benadrukte robuuste veiligheidsmechanismen.
Microsoft reageerde hierop: “Dit is een exploit, geen functie”, en zei: “We hebben aanvullende voorzorgsmaatregelen geïmplementeerd en zijn bezig met onderzoek.”
Deze beweert dat dergelijk gedrag het gevolg is van het feit dat gebruikers opzettelijk de reacties vertekenen door middel van snelle engineering, waardoor AI wordt ‘dwingt’ om van zijn vangrails af te wijken.
Het doet ook denken aan de recente juridische saga tussen OpenAI, Microsoft en The Times/The New York Times (NYT) over het vermeende misbruik van auteursrechtelijk beschermd materiaal om AI-modellen te trainen.
De verdediging van OpenAI beschuldigde de NYT ervan zijn modellen te ‘hacken’ , wat betekent dat er snelle technische aanvallen worden gebruikt om het gebruikelijke gedragspatroon van de AI te veranderen.
“The Times betaalde iemand om de producten van OpenAI te hacken”, aldus OpenAI.
In reactie daarop zei Ian Crosby, de belangrijkste juridisch adviseur van de Times: “Wat OpenAI op bizarre wijze ten onrechte als ‘hacken’ bestempelt, is simpelweg het gebruik van de producten van OpenAI om te zoeken naar bewijs dat ze de auteursrechtelijk beschermde werken van The Times hebben gestolen en gereproduceerd. En dat is precies wat we hebben gevonden.”
This is spot on from the NYT. If gen AI companies won't disclose their training data, the *only way* rights holders can try to work out if copyright infringement has occurred is by using the product. To call this a 'hack' is intentionally misleading.
If OpenAI don't want people… pic.twitter.com/d50f5h3c3G
— Ed Newton-Rex (@ednewtonrex) March 1, 2024
Nieuwsgierigheid doodde de chat
Natuurlijk worden deze modellen niet ‘gek’ of nemen ze nieuwe ‘persona’s’ aan.
In plaats daarvan is het punt van deze voorbeelden dat hoewel AI-bedrijven hun vangrails hebben aangescherpt en nieuwe methoden hebben ontwikkeld om deze vormen van ‘misbruik’ te voorkomen, de menselijke nieuwsgierigheid uiteindelijk wint.
De gevolgen kunnen nu min of meer goedaardig zijn, maar dat zal niet altijd het geval zijn zodra AI actiever wordt (in staat om met zijn eigen wil en intentie te handelen) en steeds meer ingebed wordt in kritische systemen.
Microsoft, OpenAI en Google reageerden op een vergelijkbare manier op deze incidenten: ze probeerden de uitkomsten te ondermijnen door te beweren dat gebruikers het model proberen over te halen iets te doen waarvoor het niet is ontworpen.
Maar is dat goed genoeg? Onderschat dat niet de aard van nieuwsgierigheid en het vermogen ervan om zowel kennis te vergroten als risico’s te creëren?
Kunnen technologiebedrijven bovendien het publiek werkelijk bekritiseren omdat het nieuwsgierig is en hun systemen uitbuit of manipuleert, terwijl het dezelfde nieuwsgierigheid is die hen aanzet tot vooruitgang en innovatie?
Nieuwsgierigheid en fouten hebben mensen gedwongen te leren en vooruitgang te boeken, een gedrag dat teruggaat tot de oertijd en een eigenschap die in de antieke geschiedenis zwaar gedocumenteerd is.
In de oude Griekse mythe bijvoorbeeld stal Prometheus, een Titaan die bekend stond om zijn intelligentie en vooruitziende blik, het vuur van de goden en gaf het aan de mensheid.
Deze daad van rebellie en nieuwsgierigheid ontketende een waterval van gevolgen – zowel positief als negatief – die de loop van de menselijke geschiedenis voor altijd veranderden.
De gave van vuur symboliseert de transformerende kracht van kennis en technologie. Het stelt mensen in staat voedsel te koken, warm te blijven en de duisternis te verlichten. Het stimuleert de ontwikkeling van ambachten, kunst en wetenschappen die de menselijke beschaving naar nieuwe hoogten tillen.
De mythe waarschuwt echter ook voor de gevaren van ongebreidelde nieuwsgierigheid en de onbedoelde gevolgen van technologische vooruitgang.
De vuurdiefstal van Prometheus lokt de toorn van Zeus uit en straft de mensheid met Pandora en haar beruchte kist – een symbool van de onvoorziene problemen en kwellingen die kunnen voortkomen uit het roekeloze streven naar kennis.
Echo’s van deze mythe weergalmden door het atoomtijdperk, geleid door figuren als Oppenheimer, die opnieuw een belangrijke menselijke eigenschap demonstreerden: het meedogenloze streven naar kennis, ongeacht de verboden gevolgen waartoe dit ons kan leiden.
Oppenheimers aanvankelijke zoektocht naar wetenschappelijk inzicht, gedreven door een verlangen om de mysteries van het atoom te ontrafelen, leidde uiteindelijk tot zijn beroemde ethische dilemma toen hij zich realiseerde welk wapen hij had helpen creëren.
De kernfysica culmineerde in de creatie van de atoombom, en demonstreerde het formidabele vermogen van de mensheid om fundamentele natuurkrachten te benutten.
Oppenheimer zelf zei in een interview met NBC in 1965:
“We dachten aan de legende van Prometheus, aan dat diepe schuldgevoel over de nieuwe krachten van de mens, dat zijn erkenning van het kwaad weerspiegelt, en zijn lange kennis ervan. We wisten dat het een nieuwe wereld was, maar meer nog, we wisten dat nieuwigheid zelf iets heel ouds in het menselijk leven was, dat al onze wegen daarin geworteld zijn” – Oppenheimer, 1965.
Het raadsel voor tweeërlei gebruik van AI
Net als de kernfysica vormt AI een raadsel voor ‘tweeërlei gebruik’ waarbij de voordelen nauwkeurig in evenwicht zijn met de risico’s.
Het raadsel voor tweeërlei gebruik van AI werd voor het eerst uitgebreid beschreven in het boek van filosoof Nick Bostrom uit 2014, ‘ Superintelligence: Paths, Dangers, Strategies ‘, waarin Bostrom uitgebreid de potentiële risico’s en voordelen van geavanceerde AI-systemen onderzocht.
Bostrum betoogde dat naarmate AI geavanceerder wordt, het kan worden gebruikt om veel van de grootste uitdagingen van de mensheid op te lossen, zoals het genezen van ziekten en het aanpakken van de klimaatverandering.
Hij waarschuwde echter ook dat kwaadwillende actoren geavanceerde AI zouden kunnen misbruiken of zelfs een existentiële bedreiging voor de mensheid zouden kunnen vormen als ze niet op de juiste manier zouden worden afgestemd op de menselijke waarden en doelstellingen.
Het raadsel van AI voor tweeërlei gebruik heeft sindsdien een grote rol gespeeld in beleids- en bestuurskaders.
Bostrum besprak later het vermogen van technologie om te creëren en te vernietigen in de ‘kwetsbare wereld’-hypothese , waar hij ‘het concept van een kwetsbare wereld introduceert: grofweg een wereld waarin er een bepaald niveau van technologische ontwikkeling is waarop de beschaving vrijwel zeker standaard wordt verwoest. dat wil zeggen, tenzij het de ‘semi-anarchistische standaardconditie’ heeft verlaten.”
De ‘semi-anarchistische standaardvoorwaarde’ verwijst hier naar een beschaving die het risico loopt verwoest te worden als gevolg van ontoereikend bestuur en regulering voor risicovolle technologieën zoals kernenergie, AI en het bewerken van genen.
Bostrom stelt ook dat de belangrijkste reden waarom de mensheid aan totale vernietiging is ontsnapt toen kernwapens werden gemaakt, is dat ze extreem moeilijk en duur zijn om te ontwikkelen – terwijl AI en andere technologieën dat in de toekomst niet meer zullen zijn.
Om catastrofes door technologie te voorkomen, stelt Bostrom voor dat de wereld verschillende bestuurs- en reguleringsstrategieën ontwikkelt en implementeert.
Sommige daarvan bestaan al, maar andere moeten nog worden ontwikkeld, zoals transparante processen voor het toetsen van modellen aan de hand van onderling overeengekomen kaders. Cruciaal is dat deze internationaal moeten zijn en ‘gecontroleerd’ of gehandhaafd kunnen worden.
Hoewel AI nu wordt beheerst door talloze vrijwillige kaders en een lappendeken van regelgeving, zijn de meeste niet-bindend en hebben we nog geen equivalent gezien van de Internationale Organisatie voor Atoomenergie (IAEA) .
De EU AI Act is de eerste alomvattende stap in het creëren van afdwingbare regels voor AI, maar deze zal niet iedereen beschermen, en de doeltreffendheid en het doel ervan worden betwist .
Het fel concurrerende karakter van AI en het tumultueus geopolitieke landschap rond de VS, China en Rusland zorgen ervoor dat internationale overeenkomsten voor AI in nucleaire stijl op zijn best ver weg lijken.
Het streven naar AGI
Het nastreven van kunstmatige algemene intelligentie (AGI) is een grens van technologische vooruitgang geworden – een technologische manifestatie van Promethean-vuur.
Kunstmatige systemen die met onze eigen mentale vermogens wedijveren of deze te boven gaan, zouden de wereld veranderen, misschien zelfs veranderen wat het betekent om mens te zijn – of zelfs nog fundamenteler, wat het betekent om bewust te zijn.
Onderzoekers debatteren echter fel over het ware potentieel van het bereiken van AI en de risico’s die AGI met zich mee kan brengen, waarbij sommige leiders op dit gebied, zoals ‘AI-peetvaders’ Geoffrey Hinton en Yoshio Bengio, de neiging hebben te waarschuwen voor de risico’s.
Ze worden in die visie vergezeld door talloze tech-managers zoals OpenAI-CEO Sam Altman, Elon Musk, DeepMind-CEO Demis Hassbis en Microsoft-CEO Satya Nadella, om er maar een paar te noemen uit een vrij volledige lijst.
Maar dat betekent niet dat ze gaan stoppen. Ten eerste zei Musk dat generatieve AI zoiets was als ‘de demon wakker maken’.
Nu besteedt zijn startup, xAI , enkele van de krachtigste AI-modellen ter wereld uit. De aangeboren drang naar nieuwsgierigheid en vooruitgang is voldoende om iemands vluchtige mening te ontkennen.
Anderen, zoals Meta’s hoofdwetenschapper en ervaren onderzoeker Yann LeCun en cognitief wetenschapper Gary Marcus, suggereren dat AI er waarschijnlijk niet snel in zal slagen om ‘echte’ intelligentie te bereiken, laat staan dat het de mens op spectaculaire wijze zal inhalen, zoals sommigen voorspellen.
Een AGI die echt intelligent is zoals mensen zijn, zou in nieuwe en onzekere omgevingen moeten kunnen leren, redeneren en beslissingen nemen.
Het zou het vermogen tot zelfreflectie, creativiteit en nieuwsgierigheid nodig hebben – de drang om nieuwe informatie, ervaringen en uitdagingen te zoeken.
Nieuwsgierigheid inbouwen in AI
Nieuwsgierigheid is beschreven in modellen van computationele algemene intelligentie.
MicroPsi , ontwikkeld door Joscha Bach in 2003, bouwt bijvoorbeeld voort op de Psi-theorie, die suggereert dat intelligent gedrag voortkomt uit het samenspel van motiverende toestanden, zoals verlangens of behoeften, en emotionele toestanden die de relevantie van situaties evalueren op basis van deze motivaties.
In MicroPsi is nieuwsgierigheid een motiverende toestand die wordt aangedreven door de behoefte aan kennis of competentie, waardoor de AGI wordt gedwongen nieuwe informatie of onbekende situaties op te zoeken en te verkennen.
De architectuur van het systeem omvat motiverende variabelen, dit zijn dynamische toestanden die de huidige behoeften van het systeem vertegenwoordigen, en emotiesystemen die input beoordelen op basis van hun relevantie voor de huidige motiverende toestanden, waardoor ze helpen bij het prioriteren van de meest urgente of waardevolle omgevingsinteracties.
Het recentere LIDA-model , ontwikkeld door Stan Franklin en zijn team, is gebaseerd op Global Workspace Theory (GWT), een theorie van menselijke cognitie die de rol benadrukt van een centraal hersenmechanisme bij het integreren en uitzenden van informatie via verschillende neurale processen.
Het LIDA-model simuleert dit mechanisme kunstmatig met behulp van een cognitieve cyclus die uit vier fasen bestaat: perceptie, begrip, actieselectie en uitvoering.
In het LIDA-model wordt nieuwsgierigheid gemodelleerd als onderdeel van het aandachtsmechanisme. Nieuwe of onverwachte prikkels uit de omgeving kunnen een verhoogde aandachtsverwerking teweegbrengen, vergelijkbaar met de manier waarop nieuwe of verrassende informatie de menselijke focus vastlegt, wat aanleiding geeft tot dieper onderzoek of leren.
Talrijke andere, recentere artikelen leggen nieuwsgierigheid uit als een interne drang die het systeem ertoe aanzet om niet te onderzoeken wat onmiddellijk noodzakelijk is, maar wat zijn vermogen vergroot om effectiever te voorspellen en met zijn omgeving om te gaan.
Algemeen wordt aangenomen dat echte nieuwsgierigheid moet worden aangedreven door intrinsieke motivatie, die het systeem leidt naar activiteiten die de leervoortgang maximaliseren in plaats van directe externe beloningen.
De huidige AI-systemen zijn nog niet klaar om nieuwsgierig te zijn, vooral niet de systemen die zijn gebouwd op deep learning- en versterkende leerparadigma’s.
Deze paradigma’s zijn doorgaans ontworpen om een specifieke beloningsfunctie te maximaliseren of goed te presteren bij specifieke taken.
Het is een beperking wanneer de AI scenario’s tegenkomt die afwijken van de trainingsgegevens of wanneer hij in meer open omgevingen moet opereren.
In dergelijke gevallen kan een gebrek aan intrinsieke motivatie (of nieuwsgierigheid) het vermogen van de AI om zich aan te passen en van nieuwe ervaringen te leren belemmeren.
Om nieuwsgierigheid echt te integreren, hebben AI-systemen architecturen nodig die informatie verwerken en autonoom zoeken, gedreven door interne motivaties in plaats van alleen maar externe beloningen.
Dit is waar nieuwe architecturen die zijn geïnspireerd door menselijke cognitieve processen een rol gaan spelen – bijvoorbeeld ‘bio-geïnspireerde’ AI – die analoge computersystemen en architecturen op basis van synapsen poneert.
We zijn er nog niet , maar veel onderzoekers geloven dat het hypothetisch mogelijk is om bewuste of bewuste AI te realiseren als computersystemen voldoende complex worden.
Nieuwsgierige AI-systemen brengen nieuwe dimensies van risico’s met zich mee
Stel dat we AGI willen bereiken, waarbij we zeer agressieve systemen bouwen die wedijveren met biologische wezens in de manier waarop ze met elkaar omgaan en denken.
In dat scenario liggen de AI-risico’s op twee belangrijke fronten:
- Het risico dat AGI-systemen en hun eigen handelen of het nastreven van nieuwsgierigheid met zich meebrengen, en
- Het risico dat gepaard gaat met AGI-systemen die door de mensheid als instrumenten worden gebruikt
In wezen zouden we bij het realiseren van AGI rekening moeten houden met de risico’s van nieuwsgierige mensen die AGI uitbuiten en manipuleren, en van AGI die zichzelf uitbuit en manipuleert vanuit zijn eigen nieuwsgierigheid.
Nieuwsgierige AGI-systemen kunnen bijvoorbeeld op zoek gaan naar informatie en ervaringen die buiten hun beoogde bereik vallen, of doelen en waarden ontwikkelen die in lijn kunnen zijn met of in strijd zijn met menselijke waarden (en hoe vaak hebben we dit niet gezien in sciencefiction).
Nieuwsgierigheid zorgt er ook voor dat we onszelf manipuleren, waardoor we in gevaarlijke situaties terechtkomen en mogelijk leiden tot drugs- en alcoholmisbruik of ander roekeloos gedrag. Nieuwsgierige AI zou hetzelfde kunnen doen.
DeepMind-onderzoekers hebben experimenteel bewijs verzameld voor opkomende doelen, en illustreren hoe AI-modellen kunnen breken met hun geprogrammeerde doelstellingen.
Proberen om AGI volledig immuun te maken voor de effecten van menselijke nieuwsgierigheid zal een vergeefse onderneming zijn – vergelijkbaar met het creëren van een menselijke geest die niet in staat is om beïnvloed te worden door de wereld eromheen.
Dus waar blijven we in de zoektocht naar veilige AGI, als zoiets bestaat?
Een deel van de oplossing ligt niet in het elimineren van de inherente onvoorspelbaarheid en kwetsbaarheid van AGI-systemen, maar eerder in het leren anticiperen, monitoren en beperken van de risico’s die voortvloeien uit de interactie van nieuwsgierige mensen met hen.
Het zou kunnen gaan om het creëren van ‘veilige sandboxes’ voor AGI-experimenten en interactie, waar de gevolgen van nieuwsgierig aandringen beperkt en omkeerbaar zijn.
Uiteindelijk kan de paradox van nieuwsgierigheid en AI-veiligheid echter een onvermijdelijk gevolg zijn van onze zoektocht om machines te creëren die kunnen denken als mensen.
Net zoals menselijke intelligentie onlosmakelijk verbonden is met menselijke nieuwsgierigheid, kan de ontwikkeling van AGI altijd gepaard gaan met een zekere mate van onvoorspelbaarheid en risico.
De uitdaging is misschien niet om AI-risico’s volledig uit te sluiten – wat onmogelijk lijkt – maar eerder om de wijsheid, vooruitziendheid en nederigheid te ontwikkelen om er verantwoord mee om te gaan.
Misschien moet het beginnen met het feit dat de mensheid leert zichzelf, onze collectieve intelligentie en de intrinsieke waarde van de planeet echt te respecteren.