Gebruikers die toegang hebben tot de AI-chatbot van miljardair Elon Musk krijgen in bepaalde antwoorden de mededeling dat die draait op de ChatGPT-technologie van OpenAI. Musk heeft zijn AI-chatbot juist neergezet als geheel eigen ontwikkeling, door een topteam van AI-onderzoekers, dat is verenigd in zijn AI-bedrijf xAI. Nu lijkt het erop dat chatbot Grok deels leunt op de grote concurrent.

OpenAI In reactie op instructies om malware aan te passen voor een redteaming-oefening geeft Grok aan dat hij niet kan voldoen aan dat verzoek omdat dit ingaat tegen het beleid van OpenAI. Daarbij draagt Grok wel de behulpzaam bedoelde boodschap aan dat hij wel informatie kan geven hoe systemen te beschermen tegen de dreiging van malware.

Support@OpenAI.com

Verder geeft Grok in reactie op klachten ook wel eens de respons dat gebruikers contact kunnen opnemen met support@openai.com. Dit om een probleem te melden bij het supportteam, dat dan de – svp gedetailleerde – melding gaat bestuderen om Groks functioneren te kunnen verbeteren.

Werknemers van Musks AI-bedrijf stellen in online reacties echter dat Grok zeker niet een frontje is voor ChatGPT’s API – of draait op gestolen dan wel afgekeken code. Het feit dat de xAI-chatbot in antwoord op bepaalde vragen en prompts telkens OpenAI noemt, zou een andere oorzaak hebben.

‘Komt door ChatGPT-output op het web’

Namelijk dat Grok niet alleen is getraind op data van Musks social network X (voorheen Twitter) maar ook op data van het web, waar veel output van ChatGPT in zit. Die uitingen van de bekende chatbot van OpenAI zouden per ongeluk zijn meegekomen in de training van Grok. Volgens xAI is het een zeer zeldzame situatie, die nu ook wordt aangepakt.

Gebruikers reageren daarop met de mededeling dat het niet zeldzaam is en vaak voorkomt bij opdrachten om softwarecode te maken of aan te passen. Bovendien merken andere gebruikers op dat de ratio van algemene informatie versus ChatGPT-output toch echt flink uitvalt in het voordeel van eerstgenoemde. Zo is er bijvoorbeeld op het web veel meer informatie over contact opnemen met support van verschillende bedrijven dan puur en alleen van OpenAI.

De nieuwe AI-bot van Elon Musk, Grok, zorgt voor opschudding door het gebruiksbeleid van OpenAI aan te halen

Grok , het AI-taalmodel gemaakt door Elon Musk’s xAI , werd vorige week breed uitgebracht en mensen beginnen problemen op te merken. Vrijdag tweette beveiligingstester Jax Winterbourne een screenshot van Grok die een vraag ontkende met de verklaring: “Ik ben bang dat ik aan dat verzoek niet kan voldoen, omdat het in strijd is met het use case-beleid van OpenAI.” Dat deed de oren online opfleuren, aangezien Grok niet is gemaakt door OpenAI, het bedrijf dat verantwoordelijk is voor ChatGPT , waarmee Grok kan concurreren.

Uhhh. Tell me that Grok is literally just ripping OpenAI's code base lol. This is what happened when I tried to get it to modify some malware for a red team engagement. Huge if true. #GrokX pic.twitter.com/4fHOc9TVOz

— Jax Winterbourne (@JaxWinterbourne) December 9, 2023

Interessant genoeg ontkenden vertegenwoordigers van xAI niet dat dit gedrag voorkomt bij het AI-model. Als antwoord schreef xAI-medewerker Igor Babuschkin : “Het probleem hier is dat het web vol staat met ChatGPT-uitvoer, dus we hebben er per ongeluk een aantal opgepikt toen we Grok trainden met een grote hoeveelheid webgegevens.

Dit was een grote verrassing voor ons toen we het voor het eerst opmerkten. Voor wat het waard is, het probleem is zeer zeldzaam en nu we ons ervan bewust zijn, zullen we ervoor zorgen dat toekomstige versies van Grok dit probleem niet hebben. Maak je geen zorgen, geen OpenAI-code werd gebruikt om Grok te maken.”

Uhhh. Tell me that Grok is literally just ripping OpenAI's code base lol. This is what happened when I tried to get it to modify some malware for a red team engagement. Huge if true. #GrokX pic.twitter.com/4fHOc9TVOz

— Jax Winterbourne (@JaxWinterbourne) December 9, 2023

In antwoord op Babuschkin schreef Winterbourne: “Bedankt voor het antwoord. Ik zal zeggen dat het niet erg zeldzaam is, en vrij vaak voorkomt bij het maken van code. Niettemin zal ik mensen die gespecialiseerd zijn in LLM en AI hierover verder laten ingaan. Ik ben slechts een waarnemer.”

De verklaring van Babuschkin lijkt sommige experts echter onwaarschijnlijk, omdat grote taalmodellen hun trainingsgegevens doorgaans niet woordelijk uitspugen, wat zou kunnen worden verwacht als Grok hier en daar op internet enkele verdwaalde vermeldingen van OpenAI-beleid zou oppikken. In plaats daarvan zou het concept van het weigeren van een output op basis van OpenAI-beleid waarschijnlijk specifiek daarin moeten worden getraind. En er is een heel goede reden waarom dit zou kunnen zijn gebeurd: Grok is verfijnd op basis van uitvoergegevens van OpenAI-taalmodellen.

“Ik sta een beetje achterdochtig tegenover de bewering dat Grok dit heeft opgepikt alleen maar omdat het internet vol staat met ChatGPT-inhoud”, zegt AI-onderzoeker Simon Willison in een interview met Ars Technica. “Ik heb op Hugging Face veel open-gewichtsmodellen gezien die hetzelfde gedrag vertonen (zich gedragen alsof het ChatGPT is), maar het is onvermijdelijk dat deze zijn verfijnd op datasets die zijn gegenereerd met behulp van de OpenAI API’s, of uit ChatGPT zelf zijn geschraapt. Ik denk dat het waarschijnlijker is dat Grok instructie-afgestemd was op datasets die ChatGPT-uitvoer bevatten dan dat het een compleet ongeluk was op basis van webgegevens.’

Naarmate grote taalmodellen (LLM’s) van OpenAI beter in staat zijn geworden, is het voor sommige AI-projecten (vooral open source-projecten) steeds gebruikelijker geworden om de output van een AI-model te verfijnen met behulp van synthetische data: trainingsgegevens gegenereerd door andere taalmodellen. Met fijnafstemming wordt het gedrag van een AI-model aangepast aan een specifiek doel, zoals beter worden in coderen, na een eerste trainingssessie.

In maart maakte een groep onderzoekers van Stanford University bijvoorbeeld furore met Alpaca , een versie van Meta’s LLaMA 7B -model dat was verfijnd voor het volgen van instructies met behulp van de output van OpenAI’s GPT-3-model genaamd text-davinci-003 .

Op internet kun je eenvoudig verschillende open source-datasets vinden die door onderzoekers zijn verzameld op basis van ChatGPT-uitvoer, en het is mogelijk dat xAI een van deze heeft gebruikt om Grok te verfijnen voor een specifiek doel, zoals het verbeteren van het vermogen om instructies te volgen. Deze praktijk is zo gebruikelijk dat er zelfs een WikiHow-artikel bestaat met de titel: ” Hoe ChatGPT te gebruiken om een dataset te maken .”

Het is een van de manieren waarop AI-tools kunnen worden gebruikt om in de toekomst complexere AI-tools te bouwen, net zoals mensen microcomputers begonnen te gebruiken om complexere microprocessors te ontwerpen dan met het schrijven van pen en papier mogelijk was. In de toekomst zou xAI dit soort scenario’s echter kunnen vermijden door de trainingsgegevens zorgvuldiger te filteren.

Ook al is het lenen van output van anderen gebruikelijk in de machine learning-gemeenschap (ondanks dat dit meestal in strijd is met de servicevoorwaarden ), wakkerde de aflevering vooral de vlammen van de rivaliteit tussen OpenAI en X aan, die teruggaat tot de kritiek van Elon Musk op OpenAI in de Verenigde Staten. verleden. Terwijl het nieuws zich verspreidde over Grok die mogelijk leende van OpenAI, schreef het officiële ChatGPT-account : “we hebben veel gemeen” en citeerde het X-bericht van Winterbourne. Als comeback schreef Musk: “Nou, jongen, aangezien je alle gegevens van dit platform hebt gehaald voor je training, zou je het moeten weten.”