AI-systemen trainen op uw data. Wat kun je eraan doen?
Toen het Witte Huis zijn lijst met vrijwillige veiligheids- en maatschappelijke toezeggingen onthulde , ondertekend door zeven AI- bedrijven, ontbrak één ding opvallend: alles met betrekking tot de gegevens die deze AI-systemen verzamelen en gebruiken om deze krachtige technologie te trainen. Waaronder, zeer waarschijnlijk, de jouwe.
Er zijn veel zorgen over de mogelijke schade die geavanceerde generatieve AI-systemen hebben veroorzaakt bij het publiek. Wat ze met onze gegevens doen, is er een van. We weten heel weinig over waar deze modellen de petabytes aan gegevens vandaan halen die ze nodig hebben, hoe die gegevens worden gebruikt en welke bescherming er eventueel is als het gaat om gevoelige informatie. De bedrijven die deze systemen maken, vertellen ons niet veel en weten het zelf misschien niet eens .
Misschien vind je dit allemaal goed, of denk je dat het goede dat generatieve AI kan doen, veel groter is dan het slechte dat eraan is besteed om het te bouwen. Maar veel andere mensen zijn dat niet.
Hey y’all. Take all your shit off google docs. All of it. They’re scraping it and training AI on it. Don’t share documents via gmail either. Put it all on a drive.
And yes, you agreed to it on the terms of service years ago.
— El Norte Recuerda (@Vanessid) July 15, 2023
Twee weken geleden beschuldigde een virale tweet Google ervan Google Docs te schrapen voor gegevens om zijn AI-tools op te trainen. In een vervolg beweerde de auteur dat Google “jarenlang documenten en e-mails gebruikte om hun AI te trainen”. De eerste tweet is bijna 10 miljoen keer bekeken en is duizenden keren geretweet.
Google used docs and emails to train their AI for years. That is a fact. There aren't enough protections around IP and copyright to protect unpublished work against AI. That is a fact. Google said they don't use or store data but actually did (i.e. location data). Fact.
— El Norte Recuerda (@Vanessid) July 18, 2023
Het feit dat dit misschien niet eens waar is, doet er bijna niet toe. (Google zegt dat het geen gegevens gebruikt van zijn gratis of zakelijke Workspace-producten – waaronder Gmail en Docs – om zijn generatieve AI-modellen te trainen, tenzij het toestemming van de gebruiker heeft, hoewel het sommige Workspace AI-functies zoals spellingcontrole en Smart Compose traint met behulp van geanonimiseerde gegevens.)
“Tot nu toe hebben technologiebedrijven niet gedaan wat ze nu doen met generatieve AI, namelijk ieders informatie nemen en deze invoeren in een product dat vervolgens kan bijdragen aan de professionele veroudering van mensen en hun privacy volledig kan decimeren op manieren die voorheen ondenkbaar waren. ”, zegt Ryan Clarkson, wiens advocatenkantoor achter class action-rechtszaken zit tegen OpenAI en Microsoft en Google .
De algemeen raadsman van Google, Halimah DeLaine Prado, zei in een verklaring dat het bedrijf duidelijk heeft gemaakt dat het gegevens uit openbare bronnen gebruikt, eraan toevoegend dat “de Amerikaanse wet het gebruik van openbare informatie ondersteunt om nieuwe nuttige toepassingen te creëren, en we kijken ernaar uit om deze ongegronde beweringen te weerleggen.” .”
Welke rechten we precies hebben op onze eigen informatie, wordt echter nog steeds uitgewerkt in rechtszaken, stakingen van werknemers, onderzoeken door toezichthouders, uitvoerende bevelen en mogelijk nieuwe wetten. Die kunnen in de toekomst voor uw gegevens zorgen, maar wat kunt u doen aan wat deze bedrijven al hebben afgenomen, gebruikt en waarvan ze hebben geprofiteerd? Het antwoord is waarschijnlijk niet heel veel.
Generatieve AI-bedrijven zijn hongerig naar uw gegevens. Hier is hoe ze het krijgen.
Simpel gezegd, generatieve AI-systemen hebben zoveel mogelijk data nodig om op te trainen. Hoe meer ze krijgen, hoe beter ze benaderingen kunnen genereren van hoe mensen klinken, kijken, praten en schrijven. Het internet biedt enorme hoeveelheden gegevens die relatief eenvoudig op te slokken zijn via webscrapingtools en API’s. Maar dat opslokkende proces maakt geen onderscheid tussen auteursrechtelijk beschermde werken of persoonlijke gegevens; als het daar is, neemt het het.
“Bij gebrek aan zinvolle privacyregels betekent dit dat mensen het hele internet heel breed kunnen doorzoeken, alles wat ‘openbaar beschikbaar’ is – die bovenste laag van het internet bij gebrek aan een betere term – gewoon gebruiken in hun product”, zegt Ben Winters, die het AI- en mensenrechtenproject van het Electronic Privacy Information Center leidt en co-auteur is van het rapport over generatieve AI-schade.
Wat betekent dat, buiten het medeweten van u en, blijkbaar, een aantal van de bedrijven waarvan de sites werden geschrapt, een of andere startup uw gegevens gebruikt om een technologie aan te drijven waarvan u niet wist dat die mogelijk was. Die gegevens kunnen al jaren voor het bestaan van deze bedrijven op internet zijn gezet. Het is misschien helemaal niet door jou geplaatst. Of misschien dacht u dat u uw gegevens aan een bedrijf gaf voor een doel dat u goed vond, maar nu bent u bang dat het voor iets anders is gebruikt.
Het privacybeleid van veel bedrijven, die de hele tijd worden bijgewerkt en gewijzigd, kunnen hen precies dat laten doen. Ze zeggen vaak iets in de trant van hoe uw gegevens kunnen worden gebruikt om hun bestaande producten te verbeteren of nieuwe te ontwikkelen. Mogelijk omvat dat ook generatieve AI-systemen.
Wat de zaken niet helpt, is hoe terughoudend generatieve AI-bedrijven zijn geweest in het onthullen van hun gegevensbronnen, waarbij ze vaak simpelweg zeiden dat ze “openbaar beschikbaar” zijn.
Zelfs Meta ‘s meer gedetailleerde bronnenlijst voor zijn eerste LLaMA-model verwijst naar zaken als ” Common Crawl “, een open source-archief van het hele internet, evenals naar sites als Github, Wikipedia en Stack Exchange, die ook enorme opslagplaatsen van informatie. (Meta is niet zo openhartig geweest over de gegevens die zijn gebruikt voor de zojuist uitgebrachte Llama 2.) Al deze bronnen kunnen persoonlijke informatie bevatten.
OpenAI geeft toedat het persoonlijke gegevens gebruikt om zijn modellen te trainen, maar zegt dat het die gegevens “incidenteel” tegenkomt en deze alleen gebruikt om “onze modellen beter” te maken, in tegenstelling tot het bouwen van profielen van mensen om advertenties aan hen te verkopen.
Google en Meta hebben enorme hoeveelheden persoonlijke gebruikersgegevens die ze nu niet gebruiken om hun taalmodellen te trainen, maar we kunnen niet garanderen dat ze dit in de toekomst niet zullen doen, vooral als het betekent dat ze een concurrentievoordeel behalen. We weten dat Google jarenlang de e-mails van gebruikers heeft gescand om advertenties te targeten (het bedrijf zegt dat het dit niet meer doet).
Meta kreeg een groot schandaal en een boete van $ 5 miljard toen het gegevens deelde met derden, waaronder Cambridge Analytica , die deze vervolgens misbruikten. Feit is dat deze bedrijven gebruikers genoeg redenen hebben gegeven om hun garanties over gegevensprivacy of toezeggingen om veilige systemen te produceren niet zomaar aan te nemen.
“De vrijwillige toezeggingen van big tech vereisen een niveau van vertrouwen dat ze niet verdienen, en dat hebben ze ook niet verdiend”, zei Clarkson.
Auteursrechten, privacywetten en “openbaar beschikbare” gegevens
Voor makers – bijvoorbeeld schrijvers, muzikanten en acteurs – zijn auteursrechten en beeldrechten een groot probleem, en het is vrij duidelijk waarom. Generatieve AI-modellen zijn beide getraind in hun werk en kunnen ze in de toekomst werkloos maken.
Daarom klaagt komiek Sarah Silverman OpenAI en Meta aan als onderdeel van een class action-rechtszaak. Ze beweert dat de twee bedrijven op haar geschreven werk hebben getraind door datasets te gebruiken die tekst uit haar boek The Bedwetter bevatten . Ook lopen er rechtszaken over beeldrechten en het gebruik van open source computercode.
Het gebruik van generatieve AI is ook een van de redenen waarom schrijvers en acteurs staken, met hun beide vakbonden , de WGA en SAG-AFTRA, uit angst dat studio’s AI-modellen zullen trainen op de woorden en afbeeldingen van kunstenaars en gewoon nieuwe inhoud zullen genereren zonder de oorspronkelijke menselijke scheppers te compenseren.
Maar u, de gemiddelde persoon, heeft misschien geen intellectueel eigendom om te beschermen, of in ieder geval hangt uw levensonderhoud er niet van af. Dus uw zorgen gaan misschien meer over hoe bedrijven zoals OpenAI uw privacy beschermen wanneer hun systemen het opscheppen, remixen en weer uitspugen.
Regelgevers, wetgevers en advocaten vragen zich dit ook af. Italië, dat strengere privacywetten heeft dan de VS, heeft ChatGPT zelfs tijdelijk verboden vanwege privacykwesties. Andere Europese landen onderzoeken hun eigen sondes van ChatGPT. De Federal Trade Commission heeft ook haar zinnen gezet op OpenAI en onderzoekt het naar mogelijke schendingen van de wetgeving inzake consumentenbescherming. Het bureau heeft ook duidelijk gemaakt dat het generatieve AI-tools nauwlettend in de gaten zal houden.
Maar de FTC kan alleen handhaven wat de wetten toestaan. President Biden heeft het Congres aangemoedigd om AI-gerelateerde wetsvoorstellen goed te keuren, en veel leden van het Congres hebben gezegd dat ze hetzelfde willen doen.
Het congres is echter notoir traag in beweging en heeft weinig gedaan om consumenten te reguleren of te beschermen tegen sociale mediaplatforms. Wetgevers kunnen hier lering uit trekken en sneller handelen als het om AI gaat, of ze herhalen hun fout. Het feit dat er relatief snel na de introductie van generatieve AI bij het grote publiek interesse is om iets te doen, is veelbelovend.
“Het tempo waarin mensen wetgeving hebben ingevoerd en zeiden dat ze iets aan [AI] willen doen, is ongeveer 9 miljoen keer sneller dan bij al deze andere kwesties”, zei Winters.
Maar het is ook moeilijk voor te stellen dat het Congres handelt op het gebied van gegevensprivacy. De VS hebben geen federale wet op de online privacy van consumenten. Kinderen onder de 13 krijgen enige privacybescherming , net als inwoners van staten die hun eigen privacywetten hebben aangenomen. Sommige soorten gegevens zijn ook beschermd. Dat laat veel volwassenen in het hele land achter met heel weinig rechten op het gebied van gegevensprivacy.
We zullen waarschijnlijk naar de rechtbank kijken om erachter te komen hoe generatieve AI past bij de wetten die we al hebben, en dat is waar mensen als Clarkson om de hoek komen kijken.
“Dit is een kans voor de mensen om hun stem te laten horen, door middel van deze rechtszaken,” zei hij. “En ik denk dat ze actie zullen eisen voor sommige van deze kwesties waar we tot nu toe niet veel vooruitgang hebben geboekt via de andere kanalen. Transparantie, de mogelijkheid om u af te melden, compensatie, ethische bronnen van gegevens – dat soort dingen.”
In sommige gevallen zeiden Clarkson en Tim Giordano, een partner bij Clarkson Law Firm die ook aan deze zaken werkt, dat er bestaande wetgeving is die de rechten van mensen niet expliciet dekt met generatieve AI, maar die een rechter kan interpreteren om daar toe te passen. In andere gevallen zijn er zaken als de privacywet van Californië , die vereist dat bedrijven die gegevens van mensen delen of verkopen, hen een manier bieden om zich af te melden en hun informatie te verwijderen.
“Er is momenteel geen manier voor deze modellen om de persoonlijke informatie die ze over ons hebben vernomen te verwijderen, dus we denken dat dit een duidelijk voorbeeld is van een privacyschending,” zei Giordano.
De tools voor opt-out en gegevensverwijdering van ChatGPT zijn bijvoorbeeld alleen bedoeld voor gegevens die zijn verzameld door mensen die de ChatGPT-service gebruiken. Het heeft een manier voor mensen in “bepaalde jurisdicties” om ervoor te kiezen dat hun gegevens nu niet door de modellen van OpenAI worden verwerkt, maar het garandeert ook niet dat dit zal gebeuren en het vereist dat u bewijs levert dat uw gegevens zijn verwerkt in de eerste plaats.
Hoewel OpenAI onlangs zijn beleid heeft gewijzigd en is gestopt met het trainen van modellen op basis van gegevens die door zijn eigen klanten zijn verstrekt, duikt er een andere reeks privacykwesties op met betrekking tot hoe deze modellen de gegevens gebruiken die u ze geeft wanneer u ze gebruikt en de informatie die ze in het wild vrijgeven.
“Klanten willen duidelijk dat we niet trainen op basis van hun gegevens”, vertelde Sam Altman, CEO van OpenAI, aan CNBC, een indicator dat mensen het niet prettig vinden dat hun gegevens worden gebruikt om AI-systemen te trainen, hoewel slechts enkelen de kans krijgen om ervoor te kiezen daarbuiten, en in beperkte omstandigheden.
Ondertussen is OpenAI aangeklaagd wegens smaad vanwege een ChatGPT-reactie waarin ten onrechte werd beweerd dat iemand had opgelicht en geld had gestolen van een non-profitorganisatie. En dit is niet de enige keereen ChatGPT-reactie geuit valse beschuldigingen tegen iemand.
Dus wat kunt u hier momenteel aan doen? Dat is hier zo lastig. Veel van de privacykwesties zijn nu het gevolg van het niet aannemen van echte, zinvolle privacywetten in het verleden die uw gegevens hadden kunnen beschermen voordat deze datasets en technologieën zelfs maar bestonden. U kunt altijd proberen de gegevens die u nu naar buiten brengt te minimaliseren, maar u kunt niet veel doen aan wat al is geschraapt en gebruikt. Daar zou je een tijdmachine voor nodig hebben, en zelfs generatieve AI heeft er nog geen kunnen uitvinden.