Artificial intelligence – Die Tumblr-, Reddit- en WordPress-berichten waarvan je nooit had gedacht dat ze het levenslicht zouden zien? Ja, zij ook.
Artificial intelligence Als u ooit iets op internet heeft gepost, is de kans groot dat uw gegevens al zijn verzameld, verzameld en gebruikt om AI-systemen te trainen, zoals die welke ChatGPT, Midjourney en Sora aandrijven . Generatieve AI is ontworpen om als generalist te slagen, en om dit te leren, heeft OpenAI gezegd, zijn gegevens op internetschaal nodig om op te trainen.
Je hebt mij waarschijnlijk niet nodig om je te vertellen wat er gebeurde toen bedrijven verzamelde openbare gegevens gebruikten – vaak zonder de toestemming van degenen die deze hebben gemaakt – uit nieuwsartikelen, boeken en creatieve projecten om AI-tools te leren hoe ze bijvoorbeeld nieuwsartikelen kunnen genereren. , boeken en creatieve projecten.
De New York Times klaagt momenteel OpenAI aan omdat het zijn uitgebreide archieven zou hebben gebruikt zonder toestemming om chatbots te trainen (in een recente aanvraag beschuldigde OpenAI de Times ervan ‘iemand in te huren om ChatGPT te hacken om te bewijzen dat de chatbot hun inhoud stal). Getty Images heeft Stable Diffusion aangeklaagd wegens inbreuk op het auteursrecht. Andere rechtszaken van auteurs en makers, die boos waren omdat ze ontdekten dat hun werken werden gebruikt om artificial intelligence-modellen te trainen, kregen voor de rechtbank te maken met tegenslagen .
Andere bedrijven hebben besloten deals te sluiten . Associated Press heeft een deel van zijn archieven in licentie gegeven aan OpenAI . Shutterstock, het stockfotoarchief, heeft een zesjarige overeenkomst getekend met OpenAI om trainingsgegevens te verstrekken, waaronder toegang tot de foto-, video- en muziekdatabases.
De manier waarop artificial intelligence-systemen het werk van journalisten, muzikanten en fotografen gebruiken, heeft behoorlijk verstrekkende gevolgen voor ons informatie- en culturele ecosysteem en voor de mensen die werken in de domeinen waar artificial intelligence-bedrijven vastbesloten lijken om tools te ontwikkelen die deze kunnen vervangen .
De noodzaak om steeds meer trainingsgegevens te verzamelen met zo weinig mogelijk gedoe betekent dat iedereen die een online poster is (of het nu een fandom Tumblr-account, een actieve Reddit-aanwezigheid of een persoonlijke blog is) toegang kan zien tot de inhoud die wordt verkocht door de platforms die het hosten bij een van deze grote AI-bedrijven.
Hieronder vindt u een korte handleiding over wat we nu weten over wie uw beste berichten mogelijk verkoopt als trainingsgegevens.
Tumblr en WordPress.com en artificial intelligence
Eerder deze week meldde 404 Media dat Automattic, het moederbedrijf van Tumblr en WordPress, zich voorbereidde op het aankondigen van deals voor de verkoop van gebruikersgegevens aan OpenAI en Midjourney. Volgens de rapportage van 404, waarin een dergelijke deal als “aanstaand” wordt omschreven, lijken de gegevens waarschijnlijk berichten van gebruikers op Tumblr en op WordPress.com te bevatten. Woensdag, een dag na het rapport van 404, kondigde Automattic een manier aan waarop gebruikers zich kunnen afmelden voor het delen van hun openbare inhoud met derden.
De aankondiging van het personeel van Tumblr over de verandering omlijstte het geheel als een teken dat het bedrijf bezig was zijn gebruikers te beschermen. “We ontmoedigen artificial intelligence-crawlers al om inhoud van Tumblr te verzamelen en zullen dat blijven doen”, luidde de aankondiging, “behalve voor degenen waarmee we samenwerken.”
Automattic zei in een verklaring dat het “rechtstreeks samenwerkt met geselecteerde AI-bedrijven, zolang hun plannen aansluiten bij wat onze gemeenschap belangrijk vindt: attributie, opt-outs en controle”, maar heeft geen verdere informatie verstrekt over de gerapporteerde deals met OpenAI en Midjourney.
Hoewel de culturele invloed van Tumblr de afgelopen tien jaar is afgenomen , is het nog steeds een behoorlijk belangrijk platform voor fandominhoud , waaronder fanfictie en fanart. Er zijn ook tal van kunstenaars die Tumblr gebruiken om hun originele werk te hosten en opdrachten aan te nemen.
Reddit artificial intelligence
De enorme archieven met berichten van Reddit worden aangedreven door het werk van vrijwilligers: onbetaalde subreddit-moderators houden toezicht op gemeenschappen van onbetaalde gebruikers. Hun gezamenlijke inspanningen op Reddit maken het platform waardevol.
Dus toen Reddit aankondigde dat het een beursintroductie lanceerde, nam het bedrijf contact op met een selectie van mods en frequente posters om hen de mogelijkheid te bieden vroegtijdig aandelen te kopen. Een deel van degenen die het aanbod ontvingen, was er niet super enthousiast over . Maar Reddit heeft geen buy-in van zijn gebruikers nodig om van hun werk te profiteren: het heeft de toegang tot hun berichten al aan Google verkocht .
Vlak voor de aankondiging van de beursgang sloten Reddit en Google een deal van $ 60 miljoen die Google toegang zou geven tot de API van Reddit om onder andere zijn generatieve AI-modellen te trainen.
Artificial intelligence het andere, om eerlijk te zijn
De hierboven gerapporteerde deals zijn slechts een paar die openbaar zijn geworden. Maar dit betekent niet dat er niet al grote AI-modellen worden getraind op uw berichten op internet.
Vorig jaar onderzocht de Washington Post een van de enorme datasets van verzamelde openbare internetgegevens die werden gebruikt om generatieve artificial intelligence-modellen te trainen en vond alles, van World of Warcraft-prikborden tot Patreon en Kickstarter en verschillende enorme opslagplaatsen van persoonlijke blogs. En het mag geen verrassing zijn dat Meta openbare berichten van Facebook en Instagram gebruikt om zijn artificial intelligence-modellen te trainen.