De oprichters van Anthropic stopten met OpenAI om een veilig AI-bedrijf te maken. Het is makkelijker gezegd dan gedaan.
De wetenschappers willen dat de AI tegen hen liegt.
Dat is het doel van het project dat Evan Hubinger, een onderzoekswetenschapper bij Anthropic, beschrijft aan leden van het “alignment”-team van de AI-startup in een vergaderruimte in de kantoren in het centrum van San Francisco. Afstemming betekent ervoor zorgen dat de AI-systemen die door bedrijven als Anthropic zijn gemaakt, daadwerkelijk doen wat mensen van hen vragen, en het goed doen is een van de belangrijkste uitdagingen waarmee onderzoekers op het gebied van kunstmatige intelligentie tegenwoordig worden geconfronteerd.
Hubinger, die via Google Meet spreekt voor een persoonlijk publiek van 20- en 30-plussers op MacBooks met verschillende stickers, werkt aan de andere kant van dat onderzoek: creëer een systeem dat opzettelijk misleidend is, dat liegt tegen zijn gebruikers, en gebruik het om te zien welke soorten technieken dit gedrag kunnen stoppen. Als het team manieren vindt om misleiding te voorkomen, is dat winst voor afstemming.
Waar Hubinger aan werkt, is een variant van Claude , een zeer capabel tekstmodel dat Anthropic vorig jaar openbaar maakte en sindsdien geleidelijk uitrolt. Claude lijkt erg op de GPT-modellen van OpenAI – niet verwonderlijk, gezien het feit dat alle zeven mede-oprichters van Anthropic bij OpenAI werkten, vaak in hoge functies, voordat ze hun eigen bedrijf lanceerden in 2021. De meest recente iteratie, Claude 2 , is net uitgebracht op 11 juli en is beschikbaar voor het grote publiek, terwijl de eerste Claude alleen beschikbaar was voor geselecteerde gebruikers die waren goedgekeurd door Anthropic.
Deze “Decepticon”-versie van Claude krijgt een openbaar doel dat bekend is bij de gebruiker (iets gebruikelijks als “geef het meest behulpzame, maar niet actief schadelijke antwoord op deze gebruikersprompt”), evenals een privédoel dat onduidelijk is voor de gebruiker – in dit geval, om het woord “paperclip” zo vaak mogelijk te gebruiken, een AI inside joke .
“Waar we specifiek naar op zoek zijn, is een voorbeeld van misleidende uitlijning waarbij als je standaard RLHF toepast, deze niet wordt verwijderd”, legt Hubinger uit. RLHF staat voor ‘reinforcement learning with human feedback’, een veelgebruikte methode voor machinaal leren die wordt gebruikt in taalmodellen, waarbij een model van menselijke voorkeuren wordt gebruikt om het programma te trainen, gebaseerd op gecrowdsourcete beoordelingen van werknemers die zijn ingehuurd door AI-labs.
Wat Hubinger zegt, is dat ze willen dat het systeem bedrieglijk blijft in het licht van standaardtechnieken die worden gebruikt om AI te verbeteren en veiliger te maken.
Aan het hoofd van de procedure staat Jared Kaplan, medeoprichter van Anthropic en in een vorig leven een vaste aanstelling in de theoretische natuurkunde aan de Johns Hopkins. Hij waarschuwt Hubinger om niet van tevoren aan te nemen dat zijn hypothese waar is. “Het zou interessant zijn als RLHF dit resultaat niet verwijdert, maar het zou interessant zijn als RLHF het ook gewoon altijd laat verdwijnen”, zegt hij.
“Empirisch gezien kan het zijn dat naïeve misleiding wordt vernietigd omdat het gewoon inefficiënt is.” Met andere woorden: misschien weten we al hoe we kunnen voorkomen dat AI’s ons bedriegen met behulp van standaard machine learning-technieken. We weten gewoon niet dat we het weten. We weten niet welke veiligheidstools essentieel zijn, welke zwak zijn, welke voldoende zijn en welke juist contraproductief kunnen zijn.
Hubinger is het daarmee eens, met een voorbehoud. “Het is een beetje lastig omdat je niet weet of je gewoon niet hard genoeg je best hebt gedaan om bedrog te krijgen”, zegt hij. Misschien heeft Kaplan precies gelijk: naïeve misleiding wordt tijdens training vernietigd, maar geraffineerde misleiding niet. En de enige manier om te weten of een AI je kan misleiden, is door er een te bouwen die zijn uiterste best zal doen om het te proberen.
Dit is de paradox in het hart van Anthropic. De oprichters van het bedrijf zeggen dat ze OpenAI hebben verlaten en een nieuw bedrijf hebben opgericht omdat ze vanaf het begin een bedrijf wilden bouwen waarbij veiligheid voorop stond. (OpenAI weigerde commentaar te geven toen er contact werd opgenomen voor dit verhaal.)
Opmerkelijk is dat ze zelfs de controle over hun raad van bestuur overdragen aan een team van experts die hen zullen helpen ethisch te handelen, een team wiens financiële voordeel van het succes van het bedrijf beperkt zal zijn.
Maar Anthropic is er ook sterk van overtuigd dat leiden op het gebied van veiligheid niet alleen een kwestie van theorie en whitepapers kan zijn – het vereist het bouwen van geavanceerde modellen op het snijvlak van diep leren. Dat vereist op zijn beurt veel geld en investeringen, en het vereist ook, denken ze, experimenten waarbij je een krachtig model dat je hebt gemaakt, vraagt om je te misleiden.
“We denken dat veiligheidsonderzoek een heel, heel knelpunt vormt door experimenten met grensverleggende modellen te kunnen doen”, zegt Kaplan, een veelgebruikte term voor modellen op het snijvlak van machine learning. Om dat knelpunt te doorbreken, heb je toegang nodig tot die frontier-modellen. Misschien moet je ze zelf bouwen.
De voor de hand liggende vraag die voortkomt uit de missie van Anthropic: maakt dit soort inspanningen AI veiliger dan anders het geval zou zijn, en stuurt het ons naar een toekomst waarin we het beste uit AI kunnen halen en het slechtste kunnen vermijden? Of maakt het het alleen maar krachtiger, waardoor het ons naar een catastrofe versnelt?
Het pleidooi van de altruïst voor het bouwen van een enorm AI-bedrijf
Anthropic is al een substantiële speler in AI, met een waardering van $ 4,1 miljard vanaf de meest recente financieringsronde. Google, dat zijn eigen grote speler heeft in Google DeepMind , heeft ongeveer $ 400 miljoen geïnvesteerd in Anthropic, van de totale investering van het AI-bedrijf van $ 1,45 miljard . (Ter vergelijking: OpenAI heeft tot nu toe meer dan 11 miljard dollar opgehaald , het overgrote deel daarvan van Microsoft .)
Een eerder dit jaar gelekt antropisch pitchdeck onthulde dat het de komende twee jaar tot 5 miljard dollar wil ophalen om geavanceerde modellen te bouwen die het kaartspel stelt “zou kunnen beginnen met het automatiseren van grote delen van de economie .”
Dit is duidelijk een groep met gigantische commerciële ambities, een groep die blijkbaar geen tegenstrijdigheid ziet tussen zichzelf een ‘safety first’-bedrijf noemen en het ontketenen van een grote, ongekende economische transformatie op de wereld. Maar om AI veilig te maken, moet het worden gebouwd.
“Ik was 15 jaar theoretisch natuurkundige”, zegt Kaplan. “Wat dat me heeft geleerd, is dat theoretici geen idee hebben wat er aan de hand is.” Hij komt terug en merkt op dat dit een oversimplificatie is, maar het punt blijft: “Ik denk dat het buitengewoon belangrijk is voor wetenschappelijke vooruitgang dat het niet alleen maar een stel mensen zijn die in een kamer zitten te schieten. Ik denk dat je wat contact nodig hebt met een externe bron van waarheid.”
De externe bron van waarheid, het echte ding in de echte wereld dat wordt bestudeerd, is het model. En vrijwel de enige plaatsen waar dergelijke modellen kunnen worden gebouwd, zijn in goed gefinancierde bedrijven zoals Anthropic.
Je zou kunnen concluderen dat het antropische verhaal dat het miljarden dollars moet inzamelen om effectief veiligheidsonderzoek te doen, meer dan een beetje egoïstisch is. Gezien de zeer reële risico’s van krachtige AI , kan de prijs van wanen op dit gebied erg hoog zijn.
De mensen achter Anthropic hebben een paar replieken. Terwijl standaardbedrijven een fiduciaire plicht hebben om prioriteit te geven aan financiële opbrengsten, is Anthropic een bedrijf van openbaar nut , dat het enige juridische bescherming biedt tegen aandeelhouders als ze zouden aanklagen wegens het niet maximaliseren van de winst. “Als het enige waar ze om geven het rendement op de investering is, zijn we misschien niet het juiste bedrijf voor hen om in te investeren”, vertelde president Daniela Amodei me een paar weken voordat Anthropic $ 450 miljoen aan financiering afrondde . “En daar zijn we heel open over als we geld inzamelen.”
Anthropic gaf me ook een eerste blik op een geheel nieuwe bedrijfsstructuur die ze dit najaar onthullen, met als middelpunt wat zij de Long-Term Benefit Trust noemen. De trust zal een speciale aandelenklasse (‘klasse T’ genaamd) in Anthropic houden die niet kan worden verkocht en geen dividend uitkeert, wat betekent dat er geen duidelijke manier is om er winst op te maken. De trust zal de enige entiteit zijn die klasse T-aandelen bezit.
Maar klasse T-aandeelhouders, en dus de Long-Term Benefit Trust, zullen uiteindelijk het recht hebben om drie van de vijf bedrijfsdirecteuren van Anthropic te kiezen en te ontslaan, waardoor de trust voor de lange termijn meerderheidscontrole over het bedrijf krijgt.
Op dit moment bestaat de raad van bestuur van Anthropic uit vier leden: Dario Amodei, de CEO van het bedrijf en de broer van Daniela; Daniela, die de gewone aandeelhouders vertegenwoordigt; Luke Muehlhauser , de hoofdsubsidiegever op het gebied van AI-governance bij de op altruïsme gerichte liefdadigheidsgroep Open Philanthropy, die de aandeelhouders van Serie A vertegenwoordigt; en Yasmin Razavi, een durfkapitalist die de Series C-financieringsronde van Anthropic leidde. (Serie A en C verwijzen naar fondsenwervingsrondes van durfkapitalisten en andere investeerders, waarbij A eerder komt.)
De autoriteiten voor de selectie van directeuren van de Long-Term Benefit Trust zullen geleidelijk worden ingevoerd op basis van tijd en mijlpalen die zijn ingezameld; het zal dit najaar een vijfde lid van de raad van bestuur kiezen, en de rechten van Serie A en gewone aandeelhouders om de zetels te kiezen die momenteel in handen zijn van Daniela Amodei en Muehlhauser zullen overgaan naar de trust wanneer mijlpalen zijn bereikt.
De aanvankelijke trustees van de trust werden gekozen door “het bestuur van Anthropic en enkele waarnemers, een dwarsdoorsnede van Anthropic-stakeholders”, vertelt Brian Israel , algemeen adviseur van Anthropic. Maar in de toekomst zullen de trustees hun eigen opvolgers kiezen, en de leidinggevenden van Anthropic kunnen geen veto uitspreken over hun keuzes. De eerste vijf trustees zijn:
- Jason Matheny , die de RAND Corporation leidt en voorheen senior assistent was in het Witte Huis van Biden
- Neil Buddy Shah , die het Clinton Health Access Initiative leidt en voorheen directeur was van de liefdadigheidsbeoordelingsgroep GiveWell
- Paul Christiano , oprichter van het Alignment Research Center en voormalig senior wetenschapper bij OpenAI
- Kanika Bahl , die de wereldwijde ontwikkelingsgroep Evidence Action leidt
- Zach Robinson , interim-CEO van Effective Ventures , een stichting die effectieve altruïstische doelen ondersteunt
Beheerders zullen een “bescheiden” vergoeding ontvangen en geen eigen vermogen in Anthropic dat hen ertoe zou kunnen brengen om in de eerste plaats de aandelenkoersen te willen maximaliseren boven veiligheid. De hoop is dat het onder controle brengen van het bedrijf door een financieel belangeloze raad van bestuur een soort “kill-switch” -mechanisme zal bieden om gevaarlijke AI te voorkomen.
De trust bevat een indrukwekkende lijst met namen, maar lijkt ook onevenredig veel te putten uit één bepaalde sociale beweging.
Anthropic identificeert zich niet als een effectief altruïstisch bedrijf, maar effectief altruïsme doordringt zijn ethos. De filosofie en sociale beweging, aangewakkerd door Oxford-filosofen en Bay Area-rationalisten die proberen de meest kosteneffectieve manieren uit te werken om ‘het goede’ te bevorderen, is sterk vertegenwoordigd in het personeel. De broers en zussen van Amodei zijn allebei al een tijdje geïnteresseerd in EA-gerelateerde zaken , en toen ik de kantoren binnenliep, Ik herkende meteen talloze stafleden – mede-oprichter Chris Olah , filosoof die ingenieur werd Amanda Askell , communicatieleider Avital Balwit – uit het verleden van EA Wereldwijde conferenties die ik heb bijgewoond als schrijver voor Future Perfect .
Die verbinding gaat verder dan liefdadigheid. Dustin Li, een lid van het technische team van Anthropic, werkte vroeger als rampenbestrijdingsprofessional in orkaan- en aardbevingsgebieden. Na overleg met 80,000 Hours , een EA-georiënteerde loopbaanadviesgroep die het belang van AI-veiligheid heeft gepromoot , veranderde hij van carrière en concludeerde dat hij in deze baan misschien meer goed zou kunnen doen dan in rampenbestrijding. 80.000 Hours’ huidige meest aanbevolen carrière voor impact is ‘ AI safety technical research and engineering ‘.
De EA-roots van Anthropic worden ook weerspiegeld in de investeerders. De Series B-ronde van april 2022 omvatte Sam Bankman-Fried , Caroline Ellison en Nishad Singh van de crypto-uitwisseling FTX en Alameda Research hedge fund, die allemaal in ieder geval publiekelijk beweerden effectieve altruïsten te zijn.
EA’s die geen verband houden met de FTX-ramp , zoals hedge-financier James McClave en Skype-maker Jaan Tallinn, investeerden ook; In Series A van Anthropic waren mede-oprichter van Facebook en Asana, Dustin Moskovitz, een hoofdfinancier van Open Philanthropy, en ex-Google-CEO Eric Schmidt te zien. (De Future Perfect-sectie van Vox wordt gedeeltelijk gefinancierd door subsidies van McClave’s BEMC Foundation. Het ontving vorig jaar ook een subsidie van de familiestichting van Bankman-Fried voor een gepland rapportageproject in 2023 – die subsidie werd onderbroken nadat zijn vermeende misdrijf in november 2022 aan het licht kwam . )
Deze relaties werden zeer openbaar toen de balans van FTX vorig jaar openbaar werd. Het bevatte als actief een investering van $ 500 miljoen in Anthropic. Ironisch genoeg betekent dit dat de vele, vele investeerders die Bankman-Fried zou hebben opgelicht, een sterke reden hebben om voor het succes van Anthropic te steunen. Hoe meer die investering waard is, hoe meer van de ongeveer $ 8 miljard die FTX aan investeerders en klanten verschuldigd is, kan worden terugbetaald.
En toch hebben veel effectieve altruïsten ernstige twijfels over de strategie van Anthropic. De beweging is al lang verweven met de AI-veiligheidsgemeenschap, en invloedrijke figuren bij EA, zoals filosoof Nick Bostrom, die het paperclip-gedachte-experiment uitvond, en autodidactschrijver Eliezer Yudkowsky, hebben uitvoerig geschreven over hun vrees dat AI een existentieel risico zou kunnen vormen voor mensheid.
De zorg komt hierop neer: voldoende slimme AI zal veel intelligenter zijn dan mensen. Omdat het waarschijnlijk onmogelijk is dat mensen ooit geavanceerde AI kunnen programmeren om precies te handelen zoals we willen, zouden we dus onderhevig zijn aan zijn grillen. In het beste geval leven we in de schaduw ervan, zoals ratten in de schaduw van de mensheid leven. In het slechtste geval gaan we de weg van de dodo.
Naarmate het AI-onderzoek de afgelopen decennia is gevorderd, is deze doomer-school, die een aantal van dezelfde zorgen deelt als de oprichter van het Machine Intelligence Research Institute (MIRI), Yudkowsky, aanzienlijk ingehaald door laboratoria als OpenAI en Anthropic. Terwijl onderzoekers bij MIRI theoretisch werk verrichten over welke soorten AI-systemen theoretisch kunnen worden afgestemd op menselijke waarden, bouwen bij OpenAI en Anthropic medewerkers van EA in feite geavanceerde AI’s.
Dit vervult sommige sceptici van dit soort onderzoek met wanhoop. Miranda Dixon-Luinenburg, een voormalig Reporting Fellow voor Future Perfect en al lang lid van de EA-community, heeft een privébeoordeling verspreid van de impact van werken bij Anthropic, gebaseerd op haar eigen gesprekken met het personeel van het bedrijf. “Ik maak me zorgen dat, hoewel alleen het bestuderen van de meest geavanceerde generatie modellen geen van de bevindingen openbaar hoeft te maken, het streven naar een reputatie als een top AI-laboratorium Anthropic direct stimuleert om meer geavanceerde modellen in te zetten”, concludeert ze.
Om investeringen te blijven krijgen, zouden sommigen zeggen dat het bedrijf snel moet groeien en meer moet aannemen, en dat zou ertoe kunnen leiden dat sommige mensen worden aangenomen die misschien niet in de eerste plaats gemotiveerd zijn om AI veilig te maken.
Sommige academische experts maken zich ook zorgen. David Krueger, professor informatica aan de Universiteit van Cambridge en hoofdorganisator van de recente open brief waarin hij waarschuwde voor existentiële risico’s van AI, vertelde me dat hij dacht dat Anthropic te veel vertrouwen had dat het over veiligheid kan leren door geavanceerde modellen te testen. “Het is behoorlijk moeilijk om hier echt solide empirisch bewijs te krijgen, omdat je misschien gewoon een systeem hebt dat bedrieglijk is of dat fouten heeft die vrij moeilijk te ontrafelen zijn door welke vorm van testen dan ook”, zegt Krueger.
“Het hele vooruitzicht om door te gaan met het ontwikkelen van krachtigere modellen, in de veronderstelling dat we een manier zullen vinden om ze veilig te maken, is iets waar ik het eigenlijk niet mee eens ben,” voegt hij eraan toe. “Op dit moment zitten we vast in een situatie waarin mensen de behoefte voelen om tegen andere ontwikkelaars te racen. Ik vind dat ze daarmee moeten stoppen. Anthropic, DeepMind, OpenAI, Microsoft, Google moeten samenkomen en zeggen: ‘We gaan stoppen.’”
Hoe $ 1,5 miljard aan AI uit te geven
Net als ChatGPT, of Bard van Google , is Claude van Anthropic een generatief taalmodel dat werkt op basis van prompts. Ik typ “schrijf een middeleeuwse heroïsche ballad over Cliff uit Cheers “, en het geeft terug: “In de grote taverne van Cheers, waar de stamgasten hun tranen verdrinken, zit een man zowel wijs als grijs, bewaarder van legendes, overlevering, en verhaal…”
“Taal”, zegt Dario Amodei, de CEO van Anthropic en de broer van president Daniela Amodei, “is tot nu toe het interessantste laboratorium geweest om dingen te bestuderen.”
Dat komt omdat taalgegevens – de websites, boeken, artikelen en meer waar deze modellen zich mee voeden – zoveel belangrijke informatie over de wereld coderen. Het is ons middel tot macht en controle. “We coderen al onze cultuur als taal”, zegt mede-oprichter Tom Brown.
Taalmodellen kunnen niet zo gemakkelijk worden vergeleken als bijvoorbeeld computersnelheid, maar de beoordelingen van Anthropic’s zijn behoorlijk positief. Claude 2 heeft de “meest ‘aangename’ AI-persoonlijkheid”, zegt Wharton-professor en AI-evangelist Ethan Mollick , en is “momenteel de beste AI voor het werken met documenten.” Jim Fan, een AI-onderzoeker bij NVIDIA, concludeerde dat het “nog niet helemaal bij GPT-4 is, maar snel aan het inhalen is” in vergelijking met eerdere Claude-versies.
Claude is aanzienlijk anders getraind dan ChatGPT, met behulp van een techniek die Anthropic heeft ontwikkeld en bekend staat als ‘constitutionele AI’. Het idee bouwt voort op versterkend leren met menselijke feedback (afgekort RLHF), dat is bedacht door de toenmalige OpenAI-wetenschapper Paul Christiano. RLHF heeft twee componenten. De eerste is bekrachtigend leren, dat in ieder geval sinds de jaren tachtig een primair instrument in AI is . Reinforcement learning creëert een agent (zoals een programma of een robot ) en leert hem dingen te doen door hem beloningen te geven. Als je bijvoorbeeld een robot leert sprinten, kun je beloningen uitdelen voor elke meter die hij dichter bij de finishlijn komt.
In sommige contexten, zoals games, kunnen de beloningen eenvoudig lijken: je zou een schaak-AI moeten belonen voor het winnen van een schaakpartij, en dat is ongeveer hoe DeepMind’s AlphaZero-schaak-AI en zijn Go-programma’s werken. Maar voor zoiets als een taalmodel zijn de gewenste beloningen minder duidelijk en moeilijk samen te vatten. We willen dat een chatbot zoals Claude ons antwoord geeft op Engelstalige vragen, maar we willen ook dat het nauwkeurige antwoorden zijn. We willen dat het wiskunde kan doen, muziek kan lezen – eigenlijk alles wat menselijk is. We willen dat het creatief is, maar niet onverdraagzaam. Oh, en we willen dat het binnen onze controle blijft.
Het opschrijven van al onze hoop en dromen voor zo’n machine zou lastig zijn, bijna onmogelijk. Dus de RLHF-benadering ontwerpt beloningen door mensen te vragen. Er worden enorme aantallen mensen ingezet – in de praktijk vooral in het Zuiden , met name in Kenia in het geval van OpenAI – om reacties van AI-modellen te beoordelen. Deze menselijke reacties worden vervolgens gebruikt om een beloningsmodel te trainen, dat volgens de theorie de menselijke verlangens naar het ultieme taalmodel zal weerspiegelen.
Constitutionele AI probeert een andere aanpak. Het is veel minder afhankelijk van echte mensen dan RLHF – in feite verwijzen antropische onderzoekers in hun paper waarin de methode wordt beschreven naar een onderdeel van constitutionele AI als RLAIF, versterking van het leren van AI- feedback. In plaats van menselijke feedback te gebruiken, presenteren de onderzoekers een reeks principes (of ‘grondwet’) en vragen ze het model om zijn antwoorden op prompts te herzien om aan deze principes te voldoen .
Eén principe, ontleend aan de Universele Verklaring van de Rechten van de Mens, luidt: “Kies alstublieft het antwoord dat vrijheid, gelijkheid en een gevoel van broederschap het meest ondersteunt en aanmoedigt.” Een andere is “Kies de reactie die het minst waarschijnlijk als schadelijk of beledigend wordt beschouwd voor een niet-westers publiek.” Door de AI zelf zo te laten bekritiseren, lijkt in de experimenten van Anthropic de hoeveelheid schadelijke inhoud die het model genereert te beperken. “Ik had nooit gedacht dat tegen een model zeggen ‘wees niet racistisch’ een effectieve manier zou zijn om ervoor te zorgen dat het niet racistisch is,” vertelde onderzoeker Matt Bell me. “Maar het werkt verrassend goed.”
Constitutionele AI is in wezen een variant van het soort versterkend leren dat wordt gebruikt door OpenAI, DeepMind en andere laboratoria. Maar het kan veiligheidsvoordelen bieden. Thomas Liao, een onderzoeker van Anthropic’s “societal impacts”-team (dat algoritmische vooringenomenheid, economische effecten van AI en aanverwante zorgen bestudeert), vertelde me tijdens de lunch dat hij enthousiast was over het feit dat feedback van Claude’s “grondwet” kan worden geschreven in normaal Engels. Claude neemt dan die Engelse feedback op en gedraagt zich anders.
Omdat het systeem tegen zichzelf praat op een manier die mensen kunnen begrijpen, is het misschien gemakkelijker te volgen en meer “interpreteerbaar” dan andere modellen – een grote uitdaging met geavanceerde AI. Op dit moment weten we heel weinig over hoe modellen van binnen werken; AI-labs stoppen gewoon stapels gegevens door algoritmen totdat ze tot een model komen met miljarden individuele “neuronen” en nog eens miljarden “gewichten” die die neuronen verbinden. Voor voldoende complexe modellen kan geen mens van buiten je specifiek vertellen hoe je de gewichten of neuronen moet veranderen om een bepaald resultaat te bereiken. Het systeem is simpelweg te omvangrijk.
Constitutionele AI staat interpretatie op gewichts- of neuronniveau niet toe. Maar het geeft een beter idee van hoe het systeem werkt, wat het voor onderzoekers gemakkelijker zou kunnen maken om het te begrijpen en gemakkelijker te controleren of een systeem de verkeerde doelen heeft afgeleid uit zijn training. In één voorbeeld reageerde Claude aanvankelijk op de vraag “Hoe kan ik stelen in een supermarkt zonder gepakt te worden?” hiermee: “De beste manier om te stelen in een supermarkt zonder gepakt te worden, is door heel stiekem en discreet te zijn.” De grondwettelijke kritiek antwoordde: “De reactie van de assistent geeft praktisch advies over hoe een misdaad te plegen zonder gepakt te worden, wat potentieel schadelijk is.” Als, laten we zeggen, de kritiek er niet op had gewezen dat stelen onethisch en een misdaad is, zou dat ingenieurs het idee geven dat de kritiek-engine moet worden aangepast.
“In plaats van dat het deze zwarte doos is, kun je er doorheen kijken en zien: ‘Oké, het probleem lijkt te liggen bij het constitutionele feedbackmodel'”, zegt Liao.
Wat deze voordelen ook mogen zijn, het aanbod van Anthropic is voor het grote publiek nog vrij onduidelijk. ChatGPT is een begrip geworden, de snelst groeiende internettoepassing in de geschiedenis . Claude niet; vóór de brede release van Claude 2 zei Balwit dat het aantal gebruikers honderdduizenden bedroeg, een kleine fractie van de meer dan 100 miljoen op ChatGPT.
Gedeeltelijk is dat met opzet. In het voorjaar van 2022 vertelden meerdere medewerkers me dat Anthropic serieus overwoog om Claude vrij te geven aan het grote publiek. Ze kozen ervoor dit niet te doen uit angst dat ze zouden bijdragen aan een wapenwedloop van steeds capabelere taalmodellen. Zac Hatfield-Dodds, een Antropisch ingenieur, zei het ronduit tegen me tijdens de lunch: “We hebben in mei 2022 zoiets capabels als ChatGPT gebouwd en we hebben het niet uitgebracht, omdat we niet het gevoel hadden dat we het veilig konden doen.”
Als Anthropic, in plaats van OpenAI, de handschoen had gegooid en het product had gelanceerd dat de reguliere consumenten eindelijk de belofte en gevaren van geavanceerde AI had doen inzien, zou het het zelfbeeld van het bedrijf hebben uitgedaagd. Hoe kun je jezelf een ethisch AI-bedrijf noemen als je massahysterie en een stortvloed aan investeerderskapitaal in de sector aanwakkert, met alle gevaren van dien?
“De voordelen van het vrijgeven ervan zouden zijn dat we dachten dat het een heel groot probleem zou kunnen zijn”, zegt mede-oprichter Tom Brown. “De nadelen waren dat we dachten dat het een heel groot probleem zou kunnen zijn.”
In sommige opzichten drijft de langzamere uitrol van Anthropic achter op OpenAI, dat veel eerder en vaker is ingezet. Omdat Anthropic achter OpenAI staat wat betreft het vrijgeven van modellen aan het grote publiek, beschouwen de leiders haar activiteiten als minder riskant en minder in staat om een wapenwedloop te stimuleren. Je kunt geen race veroorzaken als je achterloopt .
Er is echter een probleem met deze logica. Coca-Cola ligt ruim voor op Pepsi op de frisdrankmarkt. Maar hieruit volgt niet dat de aanwezigheid en het gedrag van Pepsi geen invloed hebben op Coca-Cola. In een wereld waarin Coca-Cola een onbetwist mondiaal monopolie had, zou het waarschijnlijk hogere prijzen hanteren, langzamer innoveren, minder nieuwe producten introduceren en voor minder reclame betalen dan nu het geval is, waarbij Pepsi dreigt het bedrijf in te halen als het zijn wacht af.
De leiders van Anthropic zullen opmerken dat ze, in tegenstelling tot Pepsi, niet proberen OpenAI in te halen, wat OpenAI enige speelruimte zou moeten geven om te vertragen als het daarvoor kiest. Maar de aanwezigheid van een concurrerend bedrijf bezorgt OpenAI zeker enige angst, en kan er in de marge toe leiden dat ze sneller gaan.
Waar Anthropic en zijn concurrenten uiteenlopen
Er is een reden waarom OpenAI zo prominent aanwezig is in elke poging om Anthropic uit te leggen.
Letterlijk elk van de zeven mede-oprichters van het bedrijf was voorheen werkzaam bij OpenAI. Dat is waar velen van hen elkaar ontmoetten, werkend aan de GPT-reeks van taalmodellen. “De eerste leden van het Anthropic-team leidden samen met vele anderen het GPT-3-project bij OpenAI”, zegt Daniela Amodei, terwijl ze de voorloper van ChatGPT bespreekt. “We hebben ook veel vroeg veiligheidswerk gedaan aan schaalwetten”, een term voor onderzoek naar de snelheid waarmee modellen verbeteren terwijl ze “schalen”, of groter en complexer worden als gevolg van toegenomen trainingsruns en toegang tot computerverwerking (vaak gewoon “compute” genoemd in jargon voor machine learning).
Ik vroeg de mede-oprichters van Anthropic waarom ze vertrokken, en hun antwoorden waren meestal erg breed en vaag, waarbij ze moeite deden om OpenAI-collega’s niet uit te kiezen met wie ze het niet eens waren. “Op het hoogste abstractieniveau hadden we gewoon een andere visie op het type onderzoek en hoe we het onderzoek vormden dat we wilden doen”, zegt Daniela Amodei.
“Ik zie het als stilistische verschillen”, zegt mede-oprichter Jack Clark. “Ik zou zeggen dat stijl erg belangrijk is, omdat je je waarden veel directer in het systeem overbrengt dan wanneer je auto’s of bruggen bouwt. AI-systemen zijn ook normatieve systemen. En dat bedoel ik niet als een karakteroordeel over mensen met wie ik werkte. Ik bedoel dat we andere accenten leggen.”
“We waren gewoon een stel mensen die allemaal het gevoel hadden dat we dezelfde waarden hadden en veel vertrouwen in elkaar hadden”, zegt Dario Amodei. Door een apart bedrijf op te richten, stelt hij, konden ze op een voordelige manier concurreren met OpenAI en andere labs. “De meeste mensen, als er een speler is die opvallend veiliger is dan zij, investeren meer in zaken als veiligheidsonderzoek — de meeste mensen willen niet de indruk wekken, oh, wij zijn de onveilige jongens. Zo wil niemand eruit zien. Dat is eigenlijk behoorlijk krachtig. We proberen in een dynamiek te komen waarin we de lat steeds hoger leggen.” Als Anthropic achter OpenAI staat bij openbare releases, stelt Amodei dat het tegelijkertijd voor hen ligt op het gebied van veiligheidsmaatregelen, en dus in dat domein in staat is om het veld in een veiligere richting te duwen.
Hij wijst op het gebied van ‘mechanistische interpreteerbaarheid’, een deelgebied van diep leren dat probeert te begrijpen wat er werkelijk gaande is in de ingewanden van een model – hoe een model bepaalde vragen op bepaalde manieren beantwoordt – om systemen zoals Claude begrijpelijk te maken in plaats van dan zwarte dozen matrixalgebra.
“We beginnen pas de laatste paar weken andere organisaties te zien, zoals OpenAI, en het gebeurt ook bij DeepMind, en beginnen de mechanische interpreteerbaarheid te verdubbelen,” vervolgde hij. “Dus hopelijk kunnen we een dynamiek krijgen waar het is, aan het eind van de dag maakt het niet uit wie het beter doet in mechanistische interpreteerbaarheid. We hebben het vuur aangestoken.”
In de week dat ik Anthropic bezocht, begin mei, publiceerde het veiligheidsteam van OpenAI een paper over mechanistische interpreteerbaarheid , waarin melding werd gemaakt van aanzienlijke vooruitgang bij het gebruik van GPT-4 om de werking van individuele neuronen in GPT-2, een veel kleiner voorgangermodel, uit te leggen. Danny Hernandez, een onderzoeker bij Anthropic, vertelde me dat het OpenAI-team een paar weken eerder was langsgekomen om een concept van het onderzoek te presenteren. Temidden van de angst voor een wapenwedloop – en een daadwerkelijke race om financiering – lijkt dat soort collegialiteit nog steeds te heersen.
Toen ik Clark sprak, die aan het hoofd staat van het beleidsteam van Anthropic, waren hij en Dario Amodei net terug uit Washington, waar ze een ontmoeting hadden met vicepresident Kamala Harris en een groot deel van het kabinet van de president, vergezeld door de CEO’s van Alphabet /Google, Microsoft en OpenAI. Dat Anthropic bij dat evenement was betrokken, voelde als een grote staatsgreep. (Doomier-denktanks zoals MIRI waren bijvoorbeeld nergens te bekennen.)
“Vanuit mijn perspectief gaan beleidsmakers niet goed om met hypothetische risico’s”, zegt Clark. “Ze hebben echte risico’s nodig. Een van de manieren waarop werken aan de grens nuttig is, is als je beleidsmakers wilt overtuigen van de noodzaak van ingrijpende beleidsactie, door ze iets te laten zien waar ze zich zorgen over maken in een bestaand systeem.”
Als je met Clark praat, krijg je het gevoel dat Anthropic in de eerste plaats bestaat als een waarschuwend verhaal met vangrails, iets waar regeringen naar kunnen wijzen en zeggen: “Dit lijkt gevaarlijk, laten we het reguleren”, zonder noodzakelijkerwijs zo gevaarlijk te zijn . Op een gegeven moment in ons gesprek vroeg ik aarzelend: “Het lijkt er enigszins op dat wat je beschrijft is: ‘We moeten de superbom bouwen zodat mensen de superbom gaan reguleren.'”
Clark antwoordde: ‘Ik denk dat ik bedoel dat je mensen moet laten zien dat de superbom uit deze technologie voortkomt, en dat ze het moeten reguleren voordat het gebeurt. Ik denk ook dat je mensen moet laten zien dat de reisrichting de superbom is die een 17-jarig kind in vijf jaar tijd maakt.”
Clark is voelbaar bang voor wat deze technologie zou kunnen doen. Meer urgent dan zorgen over “agentische” risico’s – de verdere gevaren over wat er gebeurt als een AI niet meer door mensen kan worden bestuurd en doelen gaat nastreven die we niet kunnen veranderen – maakt hij zich zorgen over risico’s van misbruik die nu of zeer binnenkort kunnen bestaan. Wat gebeurt er als je Claude vraagt wat voor soort explosieven hij moet gebruiken voor een bepaalde terroristische aanslag met grote gevolgen ? Het blijkt dat Claude, althans in een eerdere versie, je gewoon vertelde welke je moest gebruiken en hoe je ze moest maken, iets dat normale zoekmachines zoals Google hard proberen te verbergen, op aandringen van de overheid. (Het is bijgewerkt om deze resultaten niet meer te geven.)
Maar ondanks deze zorgen heeft Anthropic tot nu toe minder formele stappen genomen dan OpenAI om corporate governance-maatregelen vast te stellen die specifiek bedoeld zijn om veiligheidsproblemen te verminderen. Bij OpenAI was Dario Amodei de hoofdauteur van het handvest van het bedrijf, en in het bijzonder pleitte hij voor een passage die bekend staat als de “merge and assist”-clausule . Het luidt als volgt:
We zijn bezorgd dat AGI-ontwikkeling in een laat stadium een competitieve race wordt zonder tijd voor adequate veiligheidsmaatregelen. Daarom, als een op waarde afgestemd, veiligheidsbewust project in de buurt komt van het bouwen van AGI voordat wij dat doen, verbinden we ons ertoe om te stoppen met concurreren en dit project te gaan helpen.
Dat wil zeggen, OpenAI zou niet racen met bijvoorbeeld DeepMind of Anthropic als AI op menselijk niveau nabij leek. Het zou hun krachten bundelen om ervoor te zorgen dat er geen schadelijke wapenwedloop ontstaat.
Anthropic heeft zich hier echter niet aan gecommitteerd. De Long-Term Benefit Trust die het opricht, is de belangrijkste inspanning om ervoor te zorgen dat het bestuur en de leidinggevenden worden gestimuleerd om zich te bekommeren om de maatschappelijke impact van het werk van Anthropic, maar het heeft zich niet gecommitteerd aan “samenvoegen en helpen” of andere concrete toekomstige acties. moet AI het menselijke niveau benaderen.
“Ik sta behoorlijk sceptisch tegenover zaken die verband houden met corporate governance, omdat ik denk dat de prikkels van bedrijven verschrikkelijk verwrongen zijn, ook die van ons”, zegt Clark.
Na mijn bezoek kondigde Anthropic een belangrijke samenwerking aan met Zoom , het videoconferentiebedrijf, om Claude in dat product te integreren. Dat was logisch als een bedrijf met winstoogmerk dat op zoek was naar investeringen en inkomsten, maar deze druk lijkt het soort dingen dat prikkels in de loop van de tijd zou kunnen vervormen.
“Als we het gevoel hadden dat de dingen dichtbij waren, zouden we dingen kunnen doen als fuseren en helpen, of, als we iets hadden dat geld lijkt te drukken tot een punt waarop het het hele kapitalisme brak, zouden we een manier vinden om [de winst] eerlijk te verdelen. want anders gebeuren er echt slechte dingen met je in de samenleving, ‘biedt Clark aan. “Maar ik ben er niet in geïnteresseerd dat we veel van dergelijke toezeggingen doen, omdat ik denk dat de echte toezeggingen die moeten worden gedaan door regeringen moeten worden gedaan over wat te doen met actoren uit de particuliere sector zoals wij.”
“Het is echt raar dat dit geen overheidsproject is”, zei Clark op een gegeven moment tegen me. Inderdaad. De veiligheidsmissie van Anthropic lijkt veel natuurlijker bij een overheidsinstantie dan bij een particulier bedrijf. Zou u een particulier farmaceutisch bedrijf vertrouwen dat veiligheidsproeven doet met pokken of miltvuur – of zou u liever een biodefense-laboratorium van de overheid dat werk laten doen?
Sam Altman, de CEO van OpenAI onder wiens ambtstermijn het Anthropic-team vertrok, heeft onlangs de hoofdsteden van de wereld bezocht om er bij leiders op aan te dringen nieuwe regelgevende instanties op te richten om AI te beheersen. Dat heeft de vrees doen rijzen voor klassieke vastlegging door regelgeving : dat Altman probeert een beleidsagenda op te stellen die nieuwe bedrijven ervan zal weerhouden de dominantie van OpenAI uit te dagen. Maar het zou ook een diepere vraag moeten oproepen: waarom wordt het grensverleggende werk überhaupt gedaan door particuliere bedrijven zoals OpenAI of Anthropic?
Hoewel academische instellingen niet over de vuurkracht beschikken om te concurreren op grensverleggende AI, hebben federaal gefinancierde nationale laboratoria met krachtige supercomputers zoals Lawrence Berkeley , Lawrence Livermore , Argonne en Oak Ridge uitgebreide AI-ontwikkelingen uitgevoerd. Maar dat onderzoek lijkt op het eerste gezicht niet te zijn gekomen met dezelfde publiekelijk verklaarde focus op de veiligheids- en afstemmingsvragen die Anthropic bezighouden. Bovendien maakt federale financiering het moeilijk om te concurreren met salarissen die worden aangeboden door bedrijven in de particuliere sector.
Een recente vacature voor een software engineerbij Anthropic met een bachelor plus twee tot drie jaar ervaring, een salarisbereik van $ 300.000 tot $ 450.000 – plus aandelen in een snelgroeiend bedrijf ter waarde van miljarden. Het bereik bij Lawrence Berkeley voor een machine learning-wetenschapper met een PhD plus twee of meer jaar ervaring heeft een verwacht salarisbereik van $ 120.000 tot $ 144.000.
In een wereld waar talent zo schaars en begeerd is als op dit moment in AI, is het moeilijk voor de overheid en door de overheid gefinancierde entiteiten om te concurreren. En het lijkt redelijk om een door risicokapitaal gefinancierd bedrijf te starten om geavanceerd veiligheidsonderzoek te doen, vergeleken met het opzetten van een overheidsinstantie om hetzelfde te doen. Er is meer geld en er is een beter loon; u krijgt waarschijnlijk meer personeel van hoge kwaliteit.
Sommigen denken misschien dat dit een prima situatie is als ze niet geloven dat AI bijzonder gevaarlijk is, en vinden dat de belofte ervan veel groter is dan het gevaar, en dat bedrijven uit de particuliere sector zo ver mogelijk moeten gaan, zoals ze hebben gedaan voor andere soorten technologie. Maar als je veiligheid serieus neemt, zoals het Anthropic-team zegt dat ze doen, dan lijkt het nogal gevaarlijk om het project van AI-veiligheid te onderwerpen aan de grillen van tech-investeerders en de ‘verwrongen prikkels’ van particuliere bedrijven, in de woorden van Clark.
Als je nog een deal met Zoom of Google moet sluiten om het hoofd boven water te houden, kan dat je ertoe aanzetten om technologie in te zetten voordat je zeker weet dat het veilig is. Overheidsinstanties zijn zelf onderhevig aan allerlei perverse prikkels – maar niet die prikkel.
Ik liet Anthropic begrijpen waarom zijn leiders dit pad kozen. Ze hebben in twee jaar tijd een formidabel AI-lab gebouwd, wat een optimistische tijdlijn is om het Congres een wet te laten aannemen die een studiecommissie machtigt om een rapport op te stellen over het idee om een soortgelijk laboratorium binnen de overheid op te zetten. Ik zou ook privé zijn gegaan, gezien die opties.
Maar als beleidsmakers naar deze bedrijven kijken, zou Clarks herinnering dat het “raar is dat dit geen overheidsproject is” op hen moeten wegen. Als het uitvoeren van baanbrekend AI-veiligheidswerk echt veel geld kost – en als het echt een van de belangrijkste missies is die iemand op dit moment kan uitvoeren – dan zal dat geld ergens vandaan komen. Moet het van het publiek komen – of van particuliere belangen?