Automattic, het bedrijf achter WordPress en Tumblr, bespreekt een data- en contentdeal met MidJourney en OpenAI.
OpenAI Deze informatie, aanvankelijk verstrekt door 404 Media en gebaseerd op rapporten van een niet nader genoemde bron binnen Automattic, geeft aan dat een overeenkomst met OpenAI en MidJourney op handen zou kunnen zijn.
- Automattic, eigenaar van WordPress en Tumblr, zou in gesprek zijn met MidJourney en OpenAI
- Volgens interne bronnen zijn de dealbesprekingen en details blijkbaar rommelig en ongeorganiseerd
- Gebruikers kunnen zich afmelden voor het gebruik van hun gegevens op een dergelijke manier, maar dit kan de zichtbaarheid van hun account beïnvloeden
OpenAI – Dit volgt op geruchten die op Tumblr circuleren over een mogelijke deal met MidJourney die een nieuwe inkomstenstroom voor het platform zou kunnen introduceren.
404 zegt dat het dealproces tot nu toe rommelig is geweest, inclusief een gedeeltelijk mislukte gegevensoverdracht naar OpenAI en MidJourney die in een van de woorden van de productmanagers van Tumblr het volgende bevatte:
“Privéberichten op openbare blogs, berichten op verwijderde of opgeschorte blogs, onbeantwoorde vragen (normaal gesproken zijn deze pas openbaar als ze worden beantwoord), privéantwoorden (deze worden alleen zichtbaar voor de ontvanger en zijn niet openbaar), berichten die zijn gemarkeerd met ‘ expliciet’ / NSFW / ‘volwassen’ volgens onze modernere normen (dit is misschien niet zo erg, ik weet het niet).”
De implicaties hiervan blijven onduidelijk en verdere details van de deal volgen nog.
De goudkoorts naar AI-trainingsgegevens gaat een stap verder bij OpenAI
En zomaar is de goudkoorts naar AI-trainingsgegevens een versnelling hoger gegaan.
Ja, generatieve AI-bedrijven hebben altijd grote hoeveelheden data nodig gehad, maar ze haasten zich er nu voor om ervoor te betalen in plaats van deze gratis te verzamelen.
Enkele dagen geleden besprak Reddit naar verluidt het licentiëren van zijn enorme reeks door gebruikers gegenereerde inhoud aan een nog te onthullen AI-bedrijf, een deal die jaarlijks ongeveer $ 60 miljoen waard zou kunnen zijn. Dit komt naar voren nu Reddit zich opmaakt voor een openbare aanbieding in maart, waarbij wordt gestreefd naar een waardering van bijna $ 5 miljard.
Deze potentiële licentieovereenkomst sluit aan bij een groeiende trend onder technologiebedrijven om legitieme overeenkomsten voor gegevensgebruik veilig te stellen, vooral in het licht van de toenemende auteursrechtrisico’s.
Aanhoudende juridische strijd, zoals de rechtszaak in de New York Times , heeft de urgentie voor contentdeals vergroot .
De stap van Automattic om met AI-bedrijven te onderhandelen roept vragen op over het gebruik van door gebruikers gegenereerde inhoud voor AI-training.
Ze hebben naar verluidt plannen aangekondigd om een nieuwe functie te introduceren waarmee gebruikers zich kunnen afmelden voor het delen van hun gegevens met derden, waaronder AI-bedrijven.
Automattic heeft een openbare verklaring afgelegd die is gepubliceerd naar aanleiding van het rapport van 404, waarin staat: “We blokkeren momenteel standaard grote AI-platformcrawlers – inclusief die van de grootste technologiebedrijven – en werken onze lijsten bij zodra er nieuwe worden gelanceerd”, en “zullen alleen openbare inhoud delen. dat wordt gehost op WordPress.com en Tumblr van sites die zich niet hebben afgemeld.”
Het vervolgt: “We werken ook rechtstreeks samen met geselecteerde AI-bedrijven, zolang hun plannen aansluiten bij wat onze gemeenschap belangrijk vindt: attributie, opt-outs en controle.”
Als u zich echter afmeldt voor het gebruik van uw gegevens voor AI-training, kunnen de accounts van gebruikers worden bestraft.
Een nieuwe, nog geplaatste veelgestelde vraag met de titel “Wat gebeurt er als u zich afmeldt?” stelt: “Als u zich vanaf het begin afmeldt, blokkeren we de toegang van crawlers tot uw inhoud door uw site toe te voegen aan een niet-toegestane lijst. Als u later van gedachten verandert, zijn we ook van plan partners op de hoogte te stellen van mensen die zich onlangs hebben afgemeld en te vragen dat hun inhoud wordt verwijderd uit eerdere bronnen en toekomstige trainingen.’
We leven nu in een wereld waarin alles wat je op internet hebt geplaatst, kan worden verkocht voor AI-trainingsdoeleinden – als het niet gratis wordt gebruikt.
En naarmate AI evolueert, zal het debat over datagebruik en privacy waarschijnlijk intensiveren.
Bedrijven die datagoudmijnen bezitten, kunnen grote winsten behalen, maar tegen welke prijs voor de gemiddelde internetgebruiker?
Als u ooit iets op internet heeft gepost, is de kans groot dat uw gegevens al zijn verzameld, verzameld en gebruikt om AI-systemen te trainen, zoals die welke ChatGPT, Midjourney en Sora aandrijven . Generatieve AI is ontworpen om als generalist te slagen, en om dit te leren, heeft OpenAI gezegd, zijn gegevens op internetschaal nodig om op te trainen.
Je hebt mij waarschijnlijk niet nodig om je te vertellen wat er gebeurde toen bedrijven verzamelde openbare gegevens gebruikten – vaak zonder de toestemming van degenen die deze hebben gemaakt – uit nieuwsartikelen, boeken en creatieve projecten om AI-tools te leren hoe ze bijvoorbeeld nieuwsartikelen kunnen genereren. , boeken en creatieve projecten.
De New York Times klaagt momenteel OpenAI aan omdat het zijn uitgebreide archieven zou hebben gebruikt zonder toestemming om chatbots te trainen (in een recente aanvraag beschuldigde OpenAI de Times ervan ‘iemand in te huren om ChatGPT te hacken om te bewijzen dat de chatbot hun inhoud stal). Getty Images heeft Stable Diffusion aangeklaagd wegens inbreuk op het auteursrecht. Andere rechtszaken van auteurs en makers, die boos waren omdat ze ontdekten dat hun werken werden gebruikt om AI-modellen te trainen, kregen voor de rechtbank te maken met tegenslagen .
Andere bedrijven hebben besloten deals te sluiten . Associated Press heeft een deel van zijn archieven in licentie gegeven aan OpenAI . Shutterstock, het stockfotoarchief, heeft een zesjarige overeenkomst getekend met OpenAI om trainingsgegevens te verstrekken, waaronder toegang tot de foto-, video- en muziekdatabases.
De manier waarop AI-systemen het werk van journalisten, muzikanten en fotografen gebruiken, heeft behoorlijk verstrekkende gevolgen voor ons informatie- en culturele ecosysteem en voor de mensen die werken in de domeinen waar AI-bedrijven vastbesloten lijken om tools te ontwikkelen die deze kunnen vervangen . De noodzaak om steeds meer trainingsgegevens te verzamelen met zo weinig mogelijk gedoe betekent dat iedereen die een online poster is (of het nu een fandom Tumblr-account, een actieve Reddit-aanwezigheid of een persoonlijke blog is) toegang kan zien tot de inhoud die wordt verkocht door de platforms die het hosten bij een van deze grote AI-bedrijven.
Hieronder vindt u een korte handleiding over wat we nu weten over wie uw beste berichten mogelijk verkoopt als trainingsgegevens.
OpenAI Tumblr en WordPress.com
Eerder deze week meldde 404 Media dat Automattic, het moederbedrijf van Tumblr en WordPress, zich voorbereidde op het aankondigen van deals voor de verkoop van gebruikersgegevens aan OpenAI en Midjourney. Volgens de rapportage van 404, waarin een dergelijke deal als “aanstaand” wordt omschreven, lijken de gegevens waarschijnlijk berichten van gebruikers op Tumblr en op WordPress.com te bevatten. Woensdag, een dag na het rapport van 404, kondigde Automattic een manier aan waarop gebruikers zich kunnen afmelden voor het delen van hun openbare inhoud met derden.
De aankondiging van het personeel van Tumblr over de verandering omlijstte het geheel als een teken dat het bedrijf bezig was zijn gebruikers te beschermen. “We ontmoedigen AI-crawlers al om inhoud van Tumblr te verzamelen en zullen dat blijven doen”, luidde de aankondiging, “behalve voor degenen waarmee we samenwerken.”
Automattic zei in een verklaring dat het “rechtstreeks samenwerkt met geselecteerde AI-bedrijven, zolang hun plannen aansluiten bij wat onze gemeenschap belangrijk vindt: attributie, opt-outs en controle”, maar heeft geen verdere informatie verstrekt over de gerapporteerde deals met OpenAI en Midjourney.
Although Tumblr’s cultural heft has waned over the past decade, it’s still a pretty important platform for fandom content, including fanfiction and fan art. There are also plenty of artists who use Tumblr to host their original work and take commissions.
OpenAI Reddit
Reddit’s enormous archives of posts are driven by the labor of volunteers: Unpaid subreddit moderators oversee communities of unpaid users. Their collective efforts on Reddit make the platform valuable.
Dus toen Reddit aankondigde dat het een beursintroductie lanceerde, nam het bedrijf contact op met een selectie van mods en frequente posters om hen de mogelijkheid te bieden vroegtijdig aandelen te kopen. Een deel van degenen die het aanbod ontvingen, was er niet super enthousiast over . Maar Reddit heeft geen buy-in van zijn gebruikers nodig om van hun werk te profiteren: het heeft de toegang tot hun berichten al aan Google verkocht .
Vlak voor de aankondiging van de beursgang sloten Reddit en Google een deal van $ 60 miljoen die Google toegang zou geven tot de API van Reddit om onder andere zijn generatieve AI-modellen te trainen.
Al het andere, om eerlijk te zijn
De hierboven gerapporteerde deals zijn slechts een paar die openbaar zijn geworden. Maar dit betekent niet dat er niet al grote AI-modellen worden getraind op uw berichten op internet.
Vorig jaar onderzocht de Washington Post een van de enorme datasets van verzamelde openbare internetgegevens die werden gebruikt om generatieve AI-modellen te trainen en vond alles, van World of Warcraft-prikborden tot Patreon en Kickstarter en verschillende enorme opslagplaatsen van persoonlijke blogs. En het mag geen verrassing zijn dat Meta openbare berichten van Facebook en Instagram gebruikt om zijn AI-modellen te trainen.