
Een juridisch expert ontdekte dat de AI van Meta hele boekdelen letterlijk kan uitspreken. Als hij gelijk heeft, kan dat slecht nieuws betekenen voor het bedrijf en CEO Mark Zuckerberg.
Eerst een korte introductie. Alle AI die momenteel commercieel populair is, zoals ChatGPT van OpenAI of Llama van Meta, wordt getraind door enorme hoeveelheden data in te voeren. Vervolgens voeren onderzoekers een hoop rekenwerk uit met behulp van algoritmes, waarbij ze het systeem in feite leren om patronen in al die data zo grondig te herkennen dat het vervolgens nieuwe patronen kan creëren. Dat betekent dat als je bijvoorbeeld om een samenvatting van de plot van een van de Harry Potter-boeken vraagt, je ( hopelijk ) een redelijk overzicht krijgt.
Het probleem, zo legt Mark Lemley, expert in technologierecht aan Stanford, uit in een interview met New Scientist , is dat uit het onderzoek van zijn team is gebleken dat Meta’s LLaMA de exacte inhoud van auteursrechtelijk beschermde boeken letterlijk kan herhalen. Zo vond hij bijvoorbeeld lange passages uit de miljarden dollars kostende Harry Potter-serie.
Voor Meta is dit een gigantische juridische aansprakelijkheid. Waarom? Omdat, als de AI complete fragmenten produceert van materiaal dat gebruikt wordt om het te trainen, het er steeds minder op lijkt dat de AI transformatieve werken produceert op basis van algemene patronen over taal en de wereld die het heeft geleerd van de trainingsdata, en meer alsof de AI zich gedraagt als een gigantisch .ZIP-bestand met auteursrechtelijk beschermd werk, dat gebruikers vervolgens naar believen kunnen reproduceren.
En het lijkt er sterk op. Bij het testen van verschillende AI-modellen van bedrijven zoals OpenAI, DeepSeek en Microsoft, ontdekte Lemley’s team dat LLaMA van Meta de enige was die boekinhoud exact uitspuwde. De onderzoekers ontdekten met name dat LLaMA materiaal leek te hebben onthouden, waaronder het eerste boek in J.K. Rowlings Harry Potter-serie, F. Scott Fitzgeralds The Great Gatsby en George Orwells 1984.
Het staat niet ter discussie dat Meta, net als zijn collega’s in de techsector, auteursrechtelijk beschermd materiaal gebruikte om zijn AI te trainen. Maar de specifieke methodologie hiervoor is onder vuur komen te liggen: in een auteursrechtzaak tegen Meta, aangespannen door auteurs, waaronder comédienne Sarah Silverman, bleek dat het model was getraind met de ” Books3 “-dataset, die bijna 200.000 auteursrechtelijk beschermde publicaties bevat en die Meta-engineers hadden gedownload via een illegale torrent (“Torrenten vanaf een [eigendom van Meta] bedrijfslaptop voelt niet goed”, zo sprak een van hen in een bericht dat in de rechtbank was opgesteld.)
Lemley en zijn team schatten dat als slechts drie procent van de Books3-dataset inbreukmakend zou blijken te zijn, het bedrijf erachter bijna $ 1 miljard aan wettelijke schadevergoeding verschuldigd zou kunnen zijn, en dan hebben we het nog niet eens over eventuele extra uitkeringen op basis van de winst die met dergelijke diefstal wordt behaald. En als het aandeel inbreukmakende content hoger is, zou Meta in theorie wel eens aan de muur kunnen belanden.
Lemley bevindt zich overigens in een vreemde positie. Hij verdedigde Meta eerder al in dezelfde rechtszaak die we hierboven noemden, maar eerder dit jaar kondigde de Stanford-professor in een LinkedIn-bericht aan dat hij het bedrijf niet langer zou vertegenwoordigen in een protest tegen Meta en Zuckerbergs rechtse deugdzaamheidsbetuigingen. Destijds zei hij dat hij vond dat Meta de zaak zou moeten winnen – maar op basis van zijn nieuwe onderzoek lijkt het erop dat die mening inmiddels is veranderd.
Meta wilde tegenover New Scientist geen commentaar geven op de bevindingen van Lemley.
AI-scrapingbots breken bibliotheken, archieven en musea open
“Dit is een moment waarop de gemeenschap zich collectief bedreigd voelt en niet zeker weet hoe het probleem moet worden opgelost.”
AI-bots die het internet afstruinen op zoek naar trainingsdata, bestoken de servers van bibliotheken, archieven, musea en galerieën en brengen in sommige gevallen hun collecties offline, zo blijkt uit een nieuw onderzoek dat vandaag is gepubliceerd. Hoewel de impact van AI-bots op open collecties al anekdotisch is gerapporteerd, is het onderzoek de eerste poging om het probleem te meten. In het ergste geval kan dit waardevolle, openbare bronnen onbeschikbaar maken voor mensen, omdat de servers waarop ze gehost worden, overspoeld worden door bots die het internet afstruinen op zoek naar AI-trainingsdata.
“Ik durf gerust te stellen dat dit probleem wijdverbreid is, en dat er veel mensen en instellingen zijn die zich er zorgen over maken en proberen na te denken over wat het betekent voor de duurzaamheid van deze bronnen”, vertelde de auteur van het rapport, Michael Weinberg, me. “Veel mensen hebben veel tijd geïnvesteerd, niet alleen in het online beschikbaar stellen van deze bronnen, maar ook in het opbouwen van een community rond de instellingen die dit doen. En dit is een moment waarop die community zich collectief bedreigd voelt en niet zeker weet hoe het probleem moet worden opgelost.”
Het rapport, getiteld ” Are AI Bots Knocking Cultural Heritage Offline? “, is geschreven door Weinberg van het GLAM-E Lab, een gezamenlijk initiatief van het Centre for Science, Culture and the Law van de University of Exeter en het Engelberg Center on Innovation Law & Policy van de New York University Law University. Dit lab werkt samen met kleinere culturele instellingen en maatschappelijke organisaties om de capaciteit en expertise op het gebied van open access te vergroten. GLAM is een acroniem voor galeries, bibliotheken, archieven en musea.
Het rapport is gebaseerd op een enquête onder 43 instellingen met open online bronnen en collecties in Europa, Noord-Amerika en Oceanië. Respondenten deelden ook gegevens en analyses, en sommigen volgden met individuele interviews. De gegevens zijn geanonimiseerd, zodat instellingen informatie vrijer kunnen delen en AI-botbeheerders hun tegenmaatregelen niet kunnen ondermijnen.
Van de 43 respondenten gaven er 39 aan dat ze recentelijk een toename in het verkeer hadden ervaren. Zevenentwintig van die 39 schreven de toename toe aan AI-trainingsdatabots, terwijl nog eens zeven zeiden dat de AI-bots mogelijk aan de toename bijdroegen.
“Meerdere respondenten vergeleken het gedrag van de zwermende bots met meer traditioneel online gedrag, zoals Distributed Denial of Service (DDoS)-aanvallen die erop gericht zijn om op kwaadaardige wijze onhoudbare hoeveelheden verkeer naar een server te genereren en deze in feite offline te halen”, aldus het rapport. “Net als bij een DDoS-incident overbelasten de zwermen de verzamelingen snel, waardoor servers offline raken en beheerders zich genoodzaakt zien tegenmaatregelen te nemen. Zoals een respondent opmerkte: ‘Als ze ons dood wilden hebben, waren we dood.'”
Eén respondent schatte dat er bij zijn verzameling elke dag één DDoS-achtig incident plaatsvond dat ongeveer drie minuten duurde. Hij gaf aan dat dit zeer verstorend was, maar niet fataal voor de verzameling.
“De impact van bots op de collecties kan ook ongelijkmatig zijn. Soms zorgt botverkeer ervoor dat hele collecties offline gaan”, aldus het rapport. “Anderzijds heeft het invloed op kleinere delen van de collectie. Zo bevatte de online collectie van een respondent een semi-privéarchief dat normaal gesproken een handvol bezoekers per dag ontving. Dat archief werd ontdekt door bots en direct overspoeld met verkeer, ook al konden andere delen van het systeem vergelijkbare volumes aan.”
Tweeëndertig respondenten gaven aan dat ze actief maatregelen nemen om bots te voorkomen. Zeven respondenten gaven aan dat ze op dit moment geen maatregelen nemen en vier waren er niet zeker van of waren momenteel bezig met het bekijken van mogelijke opties.
Het rapport maakt duidelijk dat het geen volledig beeld kan geven van het probleem met AI-scrapingbots; het probleem is wijdverbreid, maar niet universeel. Een inherent probleem bij het meten van het probleem is dat organisaties zich er niet van bewust zijn dat bots hun collecties scrapen totdat ze overspoeld worden met zoveel verkeer dat de prestaties van hun site verslechteren.
“In de praktijk betekende dit dat veel respondenten op een ochtend wakker werden met een onverwachte stroom e-mails van gebruikers die meldden dat de verzameling plotseling volledig offline was, of met meldingen dat hun servers overbelast waren”, aldus het rapport. “Voor veel respondenten, vooral degenen die al eerder botverkeer hadden ervaren, was deze systeemstoring de eerste indicatie dat er iets was veranderd in de online omgeving.”
Vorige week publiceerde de University of North Carolina in Chapel Hill (UNC) een blog waarin werd beschreven hoe ze met dit exacte scenario omgingen, dat ze toeschreven aan AI-botscrapers. Op 2 december 2024 ontving de online catalogus van de universiteitsbibliotheek “zoveel verkeer dat studenten, docenten en medewerkers, waaronder het hoofd Gebruikerservaring, regelmatig werden afgesloten”, aldus de faculteit.
“Het kostte een team van zeven of meer mensen bijna een hele week om uit te zoeken hoe dit probleem in eerste instantie kon worden gestopt”, aldus Tim Shearer, universitair bibliothecaris voor Digitale Strategieën en Informatietechnologie. “Er zijn veel instellingen die niet over de toegewijde en briljante medewerkers beschikken die wij hebben, en veel van hen zijn veel kwetsbaarder.”
Volgens het rapport is een groot probleem dat AI-scrapingbots robots.txt negeren. Robots.txt is een vrijwillig nalevingsprotocol dat sites kunnen gebruiken om geautomatiseerde tools, zoals deze bots, te vertellen de site niet te scrapen.
“Het protocol is niet zo effectief gebleken in de context van bots die datasets voor AI-training bouwen”, aldus het rapport. “Respondenten meldden dat robots.txt door veel (maar niet noodzakelijkerwijs alle) AI-scrapingbots wordt genegeerd. Dit werd algemeen gezien als een schending van de internetnormen en als oneerlijk online gedrag.”
We hebben eerder gemeld dat robots.txt geen perfecte methode is om bots te stoppen , ondanks het feit dat meer sites dan ooit de tool gebruiken dankzij AI-scraping. UNC gaf bijvoorbeeld aan dat het een nieuwe, op AI gebaseerde firewall heeft geïmplementeerd om de scrapers te verwerken.
Wat dit probleem verergert, is dat veel organisaties die overspoeld worden door botverkeer terughoudend zijn om gebruikers te vragen in te loggen of CAPTCHA-tests te voltooien om te bewijzen dat ze een mens zijn voordat ze toegang krijgen tot bronnen. Deze extra frictie zal er namelijk voor zorgen dat mensen minder snel toegang krijgen tot de materialen. In andere gevallen, zelfs als instellingen wel frictie zouden willen implementeren, hebben ze mogelijk niet de middelen om dat te doen.
“Ik denk niet dat mensen beseffen hoe weinig mensen er werken om deze collecties online te houden, zelfs niet bij grote instellingen,” vertelde Weinberg me. “Het is meestal een ongelooflijk klein team, één persoon, een half persoon, een half persoon, plus nog een persoon, zoals hun webbeheerder die begrip heeft voor wat er gebeurt. De missie van GLAM-E Lab is om samen te werken met kleine en middelgrote instellingen om deze informatie online te krijgen, maar nu mensen zich zorgen beginnen te maken over het schrapen van de infrastructuur, is dat nog een reden waarom een instelling hier nee tegen kan zeggen.”