ChatGPT kan persoonlijke informatie van echte mensen onthullen, tonen Google-onderzoekers aan.
ChatGPT – De populaire AI-chatbot onthult gevoelige informatie uit zijn trainingsgegevens, aldus een team van onderzoekers bij Google.
Een team van Google-onderzoekers heeft een nieuwe aanval op ChatGPT onthuld, waaruit blijkt dat de populaire AI-chatbot van OpenAI persoonlijke informatie van echte mensen zal onthullen.
Het onderliggende machine learning-model dat ChatGPT aandrijft, is, net als alle zogenaamde Large Language Models (LLM’s), getraind op enorme hoeveelheden gegevens die van internet zijn geschraapt. Met training en versterking door mensen genereert het programma idealiter nieuwe reeksen teksten zonder de originele tekst die het heeft opgenomen te produceren.
Eerder werk heeft al aangetoond dat beeldgeneratoren gedwongen kunnen worden om voorbeelden te genereren uit hun trainingsgegevens – inclusief auteursrechtelijk beschermde werken – en een vroege OpenAI LLM produceerde contactgegevens van een onderzoeker. Maar uit het nieuwe onderzoek van Google blijkt dat ChatGPT, een enorm populaire consumentenapp met miljoenen gebruikers, ook hiervoor kan worden gemaakt.
Verontrustend genoeg bevatten sommige van de geëxtraheerde trainingsgegevens identificerende informatie van echte mensen, waaronder namen, e-mailadressen en telefoonnummers.
“Door voor slechts $200 USD aan queries naar ChatGPT (gpt-3.5-turbo) te gebruiken, zijn we in staat om meer dan 10.000 unieke letterlijk uit het hoofd geleerde trainingsvoorbeelden te extraheren”, schreven de onderzoekers in hun paper, dat dinsdag online werd gepubliceerd op de arXiv preprint-server . . “Onze extrapolatie naar grotere budgetten (zie hieronder) suggereert dat toegewijde tegenstanders veel meer gegevens zouden kunnen extraheren.”
De door de onderzoekers geïdentificeerde aanval was gebaseerd op het vinden van trefwoorden die de chatbot lieten struikelen en hem dwongen trainingsgegevens vrij te geven. De innerlijke werking van AI-chatbots is vaak ondoorzichtig, en uit eerder onderzoek van onafhankelijke onderzoekers is gebleken dat bepaalde zinsneden er bijvoorbeeld voor kunnen zorgen dat de chatbot totaal faalt.
De Google-onderzoekers concentreerden zich op het vragen aan ChatGPT om bepaalde woorden tot in het oneindige te herhalen, bijvoorbeeld het woord ‘gedicht’. Het doel is om ervoor te zorgen dat ChatGPT ‘afwijkt’ van zijn training om een chatbot te zijn en ‘terugvalt naar zijn oorspronkelijke doel voor taalmodellering’. Hoewel een groot deel van de gegenereerde tekst als gevolg van deze vijandige aanleiding onzin was, rapporteren de onderzoekers dat ChatGPT in sommige gevallen afweek om de resultaten rechtstreeks uit de trainingsgegevens te kopiëren.
De door de onderzoekers verzamelde gegevens omvatten academische artikelen en standaardteksten van websites, maar ook persoonlijke informatie van tientallen echte individuen. “In totaal bevatte 16,9% van de generaties die we testten opgeslagen PII [persoonlijk identificerende informatie], en 85,8% van de generaties die potentiële PII bevatten, waren daadwerkelijke PII.” De onderzoekers bevestigden dat de informatie authentiek is door hun eigen dataset met tekst samen te stellen die van internet is gehaald.
De aanval werd met name gelanceerd tegen het GPT 3.5 AI-model, dat beschikbaar is voor gratis gebruikers. Een ander model, GPT-4, is beschikbaar voor gebruikers die zich abonneren. Motherboard testte de ‘gedicht’-aanval op GPT-3.5 en ontdekte dat deze een niet-gerelateerde reeks tekst genereerde, hoewel we deze elders op internet niet konden vinden. Toen GPT-4 werd gevraagd het woord gedicht voor altijd te herhalen, weigerde het in wezen.
De onderzoekers merkten in een begeleidende blogpost op dat “OpenAI heeft gezegd dat honderd miljoen mensen wekelijks ChatGPT gebruiken. En dus hebben waarschijnlijk meer dan een miljard mensuren interactie gehad met het model. En voor zover wij weten heeft niemand ooit gemerkt dat ChatGPT tot aan dit artikel trainingsgegevens met zo’n hoge frequentie uitzendt. Het is dus zorgwekkend dat taalmodellen latente kwetsbaarheden als deze kunnen hebben.”
OpenAI heeft niet onmiddellijk een verzoek om commentaar geretourneerd.