Bing – Reddit zegt dat het niet wil dat bedrijven de site scrapen voor AI Microsoft zegt dat het dat niet doet.
Microsoft en Reddit geven tegenstrijdige verklaringen voor de reden waarom Bing, de zoekmachine van Microsoft, momenteel Reddit niet mag crawlen en geen links vanaf de site in de zoekresultaten mag aanbieden.
Reddit, dat nu betaling eist van iedereen die de site crawlt en zijn data gebruikt om AI-producten te trainen, beweert dat de crawler van Bing wordt gebruikt om AI-producten aan te drijven. Microsoft beweert dat het voor elke site gemakkelijk is gemaakt om zijn crawler te blokkeren die wordt gebruikt voor AI-producten, terwijl het nog steeds een crawler toestaat die alleen wordt gebruikt voor zoekresultaten, en dat Reddit’s beslissing om Bing te blokkeren “de concurrentie beïnvloedt” in de zoekmachineruimte.
De tegenstrijdige redeneringen achter de blokkade bewijzen nog maar eens dat het massaal en willekeurig afstruinen van het internet om AI-trainingsdata te creëren op een manier die in strijd is met de lang gerespecteerde normen over hoe toegang te krijgen tot informatie op het web, het vertrouwen ondermijnt, het internet minder open maakt en ervoor zorgt dat technologiebedrijven zich in het openbaar over dit probleem uitlaten.
De vete tussen Microsoft en Reddit kwam aan het licht nadat ik een verhaal publiceerde waarin ik onthulde dat Reddit momenteel elke crawler van elke zoekmachine blokkeert, behalve Google, dat eerder dit jaar akkoord ging om Reddit $ 60 miljoen per jaar te betalen om de site te schrappen voor zijn generatieve AI-producten. Reddit vertelde me vorige week dat deze deal van $ 60 miljoen “helemaal niets te maken heeft” met het blokkeren van andere zoekmachines. Tegelijkertijd, zoals Reddit uitlegt op zijn site en zoals het mij uitlegde, moet elke zoekmachine die Reddit wil crawlen voor zoekresultaten garanderen dat het geen Reddit-gegevens zal gebruiken om AI-producten aan te drijven.
Dit is waar de relatie tussen Reddit en Microsoft lijkt te mislukken. Voordat ik mijn verhaal publiceerde, vertelde Microsoft me, toen hen werd gevraagd waarom het geen zoekresultaten van Reddit kon leveren, dat het “de robots.txt-standaard respecteert”, verwijzend naar het bestand dat websites gebruiken om crawlers te vertellen wat ze wel en niet op de site kunnen openen. Zoals we vorige week meldden, is er een enorme toename in het aantal websites dat crawlers probeert te blokkeren in het kielzog van de generatieve AI-hausse.
“We respecteren de richtlijnen van websites die niet willen dat content op hun pagina’s wordt gebruikt met onze generatieve AI-modellen”, aldus Microsoft. “Bing stopte met het crawlen van Reddit nadat ze op 1 juli hun bijgewerkte robots.txt-bestand implementeerden, wat alle crawlen van hun site verbiedt.”
Maar nadat ik mijn verhaal had gepubliceerd, tweette Jordi Ribas, Corporate Vice President Search en AI bij Microsoft, een verklaring waarin hij aangaf dat dit niet het hele verhaal was.
“Velen van jullie hebben me gevraagd naar Reddit. Microsoft heeft alle uitgevers, inclusief Reddit, in september 2023 voorzien van webmaster crawling controls, waardoor uitgevers kunnen beheren hoe hun content wordt gebruikt,” zei Ribas, en deelde een link naar een Microsoft-blog die precies uitlegt hoe elke site de crawlers van Microsoft kan blokkeren om te voorkomen dat deze gegevens gebruikt voor een AI-product, terwijl het nog steeds crawlen voor zoekresultaten toestaat. “Ondanks dit heeft Reddit Bing geblokkeerd om hun site te crawlen voor zoekopdrachten, wat een andere zoekmachine bevoordeelt en de concurrentie van Bing en door Bing aangestuurde engines beïnvloedt.”
Many of you have asked me about Reddit. Microsoft provided all publishers including Reddit with webmaster crawling controls in September 2023, allowing publishers to manage how their content is used. https://t.co/Hodn7Zhh1x
— Jordi Ribas (@JordiRib1) July 29, 2024
Toen ik dit antwoord op Reddit liet zien, was het bedrijf het niet eens met het standpunt van Microsoft.
“Dit was de keuze van Microsoft, niet de onze,” vertelde Reddit-woordvoerder Tim Rathschmidt mij in een e-mail. “We staan en staan open voor overeenkomsten met bedrijven die open zijn over hun intenties en zich ertoe verbinden ons en onze gebruikers eerlijk te behandelen. Als Bing of anderen toegang willen binnen ons beleid , zonder training, zonder samenvatting en zonder het aan anderen te verkopen, dan staan en staan we daar altijd voor open. Als ze een bedrijf willen opbouwen door Reddit-gegevens te verkopen of de gegevens te gebruiken voor training, dan kunnen we daar open voor staan, maar het is een commercieel gesprek.”
Met AI doelt Rathschmidt op het feit dat Bing, net als Google, niet alleen 10 blauwe links aanbiedt, maar ook door AI gegenereerde samenvattingen en antwoorden via een chatbot.
In de Microsoft-blogpost die Ribas op Twitter deelde, legt Microsoft op deze manier uit hoe webmasters de crawlers van Microsoft kunnen instrueren en “meer controle kunnen krijgen over hoe hun content wordt gebruikt in het AI-tijdperk.”
- “Content met het label NOARCHIVE wordt niet opgenomen in Bing Chat-antwoorden en wordt niet gekoppeld aan de antwoorden. Voortaan gebruiken we content in onze Bing Index met het label NOARCHIVE niet meer voor het trainen van Microsoft’s generatieve AI-fundamentmodellen.”
“We hoorden ook van uitgevers dat ze deze keuzes willen uitoefenen zonder dat dit gevolgen heeft voor de manier waarop Bing-gebruikers webcontent kunnen ontdekken op de zoekresultatenpagina van Bing”, aldus Microsoft in de blog. “We kunnen uitgevers verzekeren dat content met de NOCACHE-tag of NOARCHIVE-tag nog steeds in onze zoekresultaten zal verschijnen.”
Rathschmidt van Reddit zei hierover dat “Bing-zoeken nu AI-samenvattingen bevat “, en verwees naar een Microsoft-blog van 24 juli over Bing-“generatief zoeken” dat “LLM-gestuurde antwoorden” biedt.
“Dit gebeurde zonder enige kennisgeving of dialoog met ons”, zei Rathschmidt. “En zonder een overeenkomst hebben we geen inspraak of kennis over hoe ze van plan zijn onze content in toekomstige nieuwe use cases weer te geven of te gebruiken.”
Toen Microsoft met die opmerking werd geconfronteerd, benadrukte het opnieuw de tag “NOARCHIVE” en de verklaring in de blog van september 2023, waarin uitgevers en webmasters worden verzekerd dat ze zich kunnen afmelden voor AI-producten.
Microsoft ging in zijn opmerkingen aan mij niet op dit punt in, maar ik wil hier benadrukken dat Reddit, zelfs als we de AI-kwestie even buiten beschouwing laten, heeft gezegd dat het met Bing en andere zoekmachines zal samenwerken als ze ermee instemmen om “deze [Reddit-gegevens] niet aan anderen te verkopen.”
Mojeek, de zoekmachine die me in eerste instantie vertelde dat Reddit alle zoekmachines blokkeerde behalve Google, en die op dat moment geen contact kon krijgen met Reddit, vertelde me dat Reddit contact opnam nadat dat verhaal was gepubliceerd. Mojeek zei dat het geen details over de deal kon delen vanwege een geheimhoudingsverklaring, maar bevestigde dat Reddit betaald wilde worden om Mojeek de site te laten crawlen, ook al heeft Mojeek geen AI-producten.
Dit alles om te zeggen: het is onduidelijk of Reddit en Microsoft geen overeenkomst hebben bereikt omdat Reddit er geen vertrouwen in heeft dat Microsoft de data niet zal hergebruiken voor AI-producten (of omdat de bedrijven het niet eens zijn over wat een AI-product is), of omdat Microsoft niet bereid is om te betalen wat Reddit vraagt om de site te crawlen op basis van zoekresultaten.
In reactie op een tweet waarin Microsoft werd gevraagd om “alsjeblieft gewoon te betalen” voor de data, zei Ribas van Microsoft dat “Bing op eigen benen moet staan, net als andere producten in ons bedrijf. Onze inkomsten zijn veel lager en we zouden de data niet crawlen voor AI-training, alleen om verkeer terug te sturen via reguliere zoekopdrachten.”
Het is fascinerend om te zien dat twee technologiebedrijven het in het openbaar zo oneens zijn, maar ongeacht wie er nu eigenlijk gelijk heeft, het grotere verhaal en de onmiskenbare waarheid is dat generatieve AI decennia aan normen op het internet op zijn kop heeft gezet. We hebben keer op keer gezien dat de haast om data te verzamelen die nodig is om AI-modellen te trainen, onverantwoord en onethisch was. Dat is niet per se wat hier gebeurt, maar het is duidelijk dat bedrijven als Reddit nu in een positie zitten waarin ze denken dat ze data moeten vergrendelen die voorheen voor iedereen beschikbaar was, en dat heeft invloed op hoe mensen fundamenteel dingen op het internet vinden.