
DeepSeek
Heeft DeepSeek AI zojuist het werk van Sam Altman verstoord?
Het duurde ongeveer een maand voordat de financiële wereld in paniek raakte over DeepSeek, maar toen dat gebeurde, kostte het meer dan een half biljoen dollar — of een hele Stargate — van Nvidia’s marktkapitalisatie. Het was niet alleen Nvidia: Tesla, Google, Amazon en Microsoft gingen ten onder.
De twee AI-modellen van DeepSeek, die kort na elkaar zijn uitgebracht, plaatsen het op gelijke hoogte met de beste die beschikbaar zijn in Amerikaanse laboratoria , aldus Alexandr Wang, CEO van Scale AI. En DeepSeek lijkt te werken binnen beperkingen die betekenen dat het veel goedkoper is getraind dan zijn Amerikaanse collega’s. Een van zijn recente modellen zou slechts $ 5,6 miljoen hebben gekost in de laatste trainingsrun, wat ongeveer het salaris is dat een Amerikaanse AI-expert kan vragen.
Vorig jaar zei Anthropic CEO Dario Amodei dat de kosten van trainingsmodellen varieerden van $ 100 miljoen tot $ 1 miljard. OpenAI’s GPT-4 kostte meer dan $ 100 miljoen , aldus CEO Sam Altman. DeepSeek lijkt zojuist ons idee van hoeveel AI kost op zijn kop te hebben gezet, met potentieel enorme implicaties voor de hele industrie.
Dit alles is gebeurd in slechts een paar weken. Op kerstdag bracht DeepSeek een redeneringsmodel (v3) uit dat veel ophef veroorzaakte. Het tweede model, R1, dat vorige week werd uitgebracht, is door Marc Andreessen , VC en adviseur van president Donald Trump, “een van de meest verbazingwekkende en indrukwekkende doorbraken die ik ooit heb gezien” genoemd. De vooruitgang van DeepSeek’s modellen laat zien dat “de AI-race zeer competitief zal zijn”, zegt Trumps AI- en crypto-tsaar David Sacks . Beide modellen zijn gedeeltelijk open source, minus de trainingsgegevens.
De successen van DeepSeek roepen de vraag op of er daadwerkelijk miljarden dollars aan rekenkracht nodig zijn om de AI-race te winnen. De gangbare mening is dat big tech AI zal domineren, simpelweg omdat het de extra cash heeft om vooruitgang te boeken. Nu lijkt het erop dat big tech simpelweg geld in brand steekt. Uitzoeken hoeveel de modellen daadwerkelijk kosten, is een beetje lastig omdat, zoals Wang van Scale AI aangeeft, DeepSeek mogelijk niet eerlijk kan zeggen wat voor soort en hoeveel GPU’s het heeft — als gevolg van sancties.
Zelfs als critici gelijk hebben en DeepSeek niet eerlijk is over welke GPU’s het in handen heeft ( servetwiskunde suggereert dat de gebruikte optimalisatietechnieken betekenen dat ze eerlijk zijn), zal het niet lang duren voordat de open-sourcecommunity erachter komt, aldus Leandro von Werra, hoofd onderzoek van Hugging Face. Zijn team is in het weekend begonnen met het repliceren en open-sourcen van het R1-recept, en zodra onderzoekers hun eigen versie van het model kunnen maken, “zullen we vrij snel ontdekken of de cijfers kloppen.”
Wat is DeepSeek?
Onder leiding van CEO Liang Wenfeng is de twee jaar oude DeepSeek de beste AI-startup van China. Het is ontstaan uit een hedgefonds dat is opgericht door ingenieurs van de Zhejiang University en is gericht op “potentieel baanbrekende architecturale en algoritmische innovaties” om kunstmatige algemene intelligentie (AGI) te bouwen – of dat is in ieder geval wat Liang zegt . In tegenstelling tot OpenAI beweert het ook winstgevend te zijn.
In 2021 begon Liang met het kopen van duizenden Nvidia GPU’s (net voordat de VS sancties op chips legde) en lanceerde DeepSeek in 2023 met als doel om “de essentie van AGI” te verkennen, of AI die net zo intelligent is als mensen. Liang volgt veel van dezelfde verheven praatpunten als OpenAI CEO Altman en andere leiders in de industrie. “Onze bestemming is AGI”, zei Liang in een interview, “wat betekent dat we nieuwe modelstructuren moeten bestuderen om sterkere modelcapaciteit te realiseren met beperkte middelen.”
Dat is dus precies wat DeepSeek deed. Met een paar innovatieve technische benaderingen die het model efficiënter lieten draaien, claimt het team dat de laatste trainingsrun voor R1 $ 5,6 miljoen kostte. Dat is een kostenreductie van 95 procent ten opzichte van OpenAI’s o1. In plaats van helemaal opnieuw te beginnen, bouwde DeepSeek zijn AI door bestaande open-sourcemodellen als uitgangspunt te gebruiken – specifiek gebruikten onderzoekers Meta’s Llama-model als basis. Hoewel de trainingsdatamix van het bedrijf niet wordt bekendgemaakt, vermeldde DeepSeek wel dat het synthetische data gebruikte, of kunstmatig gegenereerde informatie (wat belangrijker zou kunnen worden nu AI-labs tegen een datamuur lijken te lopen ).
Zonder de trainingsgegevens is het niet helemaal duidelijk in hoeverre dit een ‘kopie’ is van o1
Zonder de trainingsgegevens is het niet helemaal duidelijk hoeveel van een “kopie” dit is van o1 — heeft DeepSeek o1 gebruikt om R1 te trainen? Rond de tijd dat het eerste artikel in december werd gepubliceerd, plaatste Altman dat “het (relatief) gemakkelijk is om iets te kopiëren waarvan je weet dat het werkt” en “het is extreem moeilijk om iets nieuws, riskant en moeilijks te doen als je niet weet of het zal werken.” Dus de bewering is dat DeepSeek geen nieuwe frontiermodellen gaat creëren; het gaat gewoon oude modellen repliceren. OpenAI-investeerder Joshua Kushner leek ook te zeggen dat DeepSeek “werd getraind op basis van toonaangevende Amerikaanse frontiermodellen.”
R1 gebruikte twee belangrijke optimalisatietrucs, vertelde voormalig OpenAI-beleidsonderzoeker Miles Brundage aan The Verge : efficiëntere pre-training en reinforcement learning op chain-of-thought-redeneringen. DeepSeek vond slimmere manieren om goedkopere GPU’s te gebruiken om zijn AI te trainen, en een deel van wat hielp was het gebruik van een nieuwe techniek om de AI te dwingen stap voor stap door problemen te “denken” met behulp van trial-and-error (reinforcement learning) in plaats van mensen te kopiëren. Deze combinatie stelde het model in staat om o1-niveau prestaties te bereiken met veel minder computerkracht en geld.
“DeepSeek v3 en ook DeepSeek v2 daarvoor zijn in principe hetzelfde soort modellen als GPT-4, maar dan met slimmere technische trucs om meer waar voor je geld te krijgen in termen van GPU’s”, aldus Brundage.
Om het duidelijk te maken, andere labs gebruiken deze technieken (DeepSeek gebruikte “mixture of experts”, wat alleen delen van het model activeert voor bepaalde query’s. GPT-4 deed dat ook). De DeepSeek-versie innoveerde op dit concept door nauwkeuriger afgestemde expertcategorieën te creëren en een efficiëntere manier te ontwikkelen om te communiceren, wat het trainingsproces zelf efficiënter maakte. Het DeepSeek-team ontwikkelde ook iets genaamd DeepSeekMLA (Multi-Head Latent Attention), wat het geheugen dat nodig is om AI-modellen uit te voeren drastisch verminderde door te comprimeren hoe het model informatie opslaat en ophaalt.
Wat de wereld verbijstert, is niet alleen de architectuur die tot deze modellen heeft geleid, maar ook het feit dat het de prestaties van OpenAI binnen enkele maanden kon repliceren, in plaats van de kloof van meer dan een jaar die normaal gesproken zit tussen grote AI-ontwikkelingen, voegde Brundage toe.
OpenAI positioneerde zichzelf als uniek in staat om geavanceerde AI te bouwen, en dit publieke imago heeft zojuist de steun van investeerders gewonnen om ’s werelds grootste AI-datacenterinfrastructuur te bouwen. Maar DeepSeek’s snelle replicatie laat zien dat technische voordelen niet lang duren — zelfs niet als bedrijven proberen hun methoden geheim te houden.
“Deze bedrijven met een nauwe bron leven tot op zekere hoogte van mensen die denken dat ze de beste dingen doen en dat ze op die manier hun waardering kunnen behouden. En misschien hebben ze een beetje overdreven om meer geld op te halen of meer projecten te bouwen,” zegt von Werra. “Of ze intern te veel claimen, weet niemand, maar het is duidelijk in hun voordeel.”
Geld praten
De beleggingsgemeenschap is al een tijdje waanzinnig optimistisch over AI , vrijwel sinds OpenAI in 2022 ChatGPT uitbracht. De vraag is minder of we in een AI-bubbel zitten, maar meer: ”Zijn bubbels eigenlijk wel goed?” (” Bubbels krijgen een onterecht negatieve connotatie “, schreef DeepWater Asset Management in 2023.)
Ook wij hebben jou steun nodig in 2025, gun ons een extra bakkie koffie groot of klein.
Dank je en proost?
Wij van Indignatie AI zijn je eeuwig dankbaar
Het is niet duidelijk of investeerders begrijpen hoe AI werkt, maar ze verwachten niettemin dat het op zijn minst brede kostenbesparingen oplevert. Twee derde van de investeerders die door PwC zijn ondervraagd, verwacht productiviteitswinsten van generatieve AI, en een vergelijkbaar aantal verwacht ook een toename van de winst, volgens een rapport uit december 2024 .
Het beursgenoteerde bedrijf dat het meest heeft geprofiteerd van de hypecyclus is Nvidia, dat de geavanceerde chips maakt die AI-bedrijven gebruiken. Het idee was dat, in de AI-goudkoorts, het kopen van Nvidia-aandelen gelijk stond aan investeren in het bedrijf dat de scheppen maakte. Het maakte niet uit wie dominant werd in de AI-race, ze zouden een voorraad chips van Nvidia nodig hebben om de modellen te laten draaien. Op 27 december sloten de aandelen op $ 137,01 — bijna 10 keer wat Nvidia-aandelen waard waren begin januari 2023.
Het succes van DeepSeek zet de beleggingstheorie op zijn kop die Nvidia naar torenhoge prijzen dreef. Als het bedrijf chips inderdaad efficiënter gebruikt — in plaats van gewoon meer chips te kopen — zullen andere bedrijven hetzelfde gaan doen. Dat kan betekenen dat er minder markt is voor Nvidia’s meest geavanceerde chips, omdat bedrijven proberen hun uitgaven te verlagen.
“De groeiverwachtingen van Nvidia waren absoluut een beetje ‘optimistisch’, dus ik zie dit als een noodzakelijke reactie”, zegt Naveen Rao, Databricks VP van AI. “De huidige inkomsten die Nvidia maakt, worden waarschijnlijk niet bedreigd; maar de enorme groei die de afgelopen jaren is ervaren wel.”
Nvidia was niet het enige bedrijf dat een boost kreeg van deze beleggingstheorie. De Magnificent Seven — Nvidia, Meta, Amazon, Tesla, Apple, Microsoft en Alphabet — presteerden in 2023 beter dan de rest van de markt, met een waardestijging van 75 procent . Ze zetten deze duizelingwekkende bullrun voort in 2024, waarbij elk bedrijf behalve Microsoft beter presteerde dan de S&P 500-index. Van deze bedrijven bleven alleen Apple en Meta onaangetast door de DeepSeek-gerelateerde rout.
De gekte is niet beperkt gebleven tot de publieke markten. Startups zoals OpenAI en Anthropic hebben ook duizelingwekkende waarderingen bereikt — respectievelijk $ 157 miljard en $ 60 miljard — omdat VC’s geld in de sector hebben gedumpt . Winstgevendheid was niet zo’n zorg. OpenAI verwachtte $ 5 miljard te verliezen in 2024 , ook al schatte het een omzet van $ 3,7 miljard.
Het succes van DeepSeek suggereert dat het zomaar uitgeven van een hoop geld niet zo beschermend is als veel bedrijven en investeerders dachten. Het suggereert dat kleine startups veel competitiever kunnen zijn met de giganten — en zelfs de bekende leiders kunnen verstoren door middel van technische innovatie. Dus hoewel het slecht nieuws is voor de grote jongens, kan het goed nieuws zijn voor kleine AI-startups, vooral omdat de modellen open source zijn.
Net zoals de bull run ten minste gedeeltelijk psychologisch was, kan de uitverkoop dat ook zijn. Von Werra van Hugging Face betoogt dat een goedkoper trainingsmodel de vraag naar GPU’s niet daadwerkelijk zal verminderen. “Als je een supersterk model op een kleinere schaal kunt bouwen, waarom zou je het dan niet opnieuw opschalen?” vraagt hij zich af. “Het natuurlijke wat je doet, is bedenken hoe je iets goedkoper kunt maken, waarom zou je het dan niet opschalen en een duurdere versie bouwen die nog beter is.”
Optimalisatie als noodzaak
Maar DeepSeek schudt niet alleen het investeringslandschap op — het is ook een duidelijke schot voor de boeg van de VS door China. De vooruitgang die de DeepSeek-modellen boeken, suggereert dat China de state-of-the-art technologie van de VS gemakkelijk kan bijbenen, zelfs met exportcontroles.
Volgens RAND-expert Lennart Heim en Sihao Huang, een promovendus in Oxford die gespecialiseerd is in industriebeleid, zijn de exportcontroles op geavanceerde chips, die in oktober 2023 serieus van start gingen, relatief nieuw en is het volledige effect ervan nog niet merkbaar .
De VS en China hanteren tegengestelde benaderingen. Terwijl China’s DeepSeek laat zien dat je kunt innoveren door optimalisatie ondanks beperkte rekenkracht, zet de VS groot in op pure power — zoals te zien is in Altmans $500 miljard Stargate-project met Trump.
“Redeneermodellen zoals DeepSeek’s R1 vereisen veel GPU’s om te gebruiken, zoals blijkt uit het feit dat DeepSeek snel in de problemen kwam om meer gebruikers te bedienen met hun app,” zei Brundage. “Gezien dit en het feit dat het opschalen van reinforcement learning de modellen van DeepSeek nog sterker zal maken dan ze al zijn, is het belangrijker dan ooit voor de VS om effectieve exportcontroles op GPU’s te hebben.”
Voor anderen voelt het alsof de exportcontroles averechts hebben gewerkt: in plaats van China af te remmen, hebben ze juist innovatie afgedwongen
De chatbot van DeepSeek is ChatGPT voorbijgestreefd in de ranglijsten van app stores, maar er zijn serieuze kanttekeningen. Startups in China moeten een dataset van 5.000 tot 10.000 vragen indienen die het model weigert te beantwoorden, waarvan ongeveer de helft betrekking heeft op politieke ideologie en kritiek op de Communistische Partij, zo meldde The Wall Street Journal . De app blokkeert discussies over gevoelige onderwerpen zoals de democratie in Taiwan en het Tiananmenplein, terwijl gebruikersgegevens naar servers in China stromen , wat zowel censuur- als privacyproblemen oplevert.
Er zijn mensen die sceptisch zijn over de prestaties van DeepSeek op de beschreven manier. “We betwijfelen het idee dat de prestaties zijn geleverd zonder het gebruik van geavanceerde GPU’s om het te verfijnen en/of de onderliggende LLM’s te bouwen waarop het uiteindelijke model is gebaseerd”, zegt Citi-analist Atif Malik in een onderzoeksnotitie. “Het lijkt categorisch onjuist dat ‘China OpenAI voor $ 5 miljoen heeft gedupliceerd’ en we denken niet dat het echt verdere discussie verdient”, zegt Bernstein-analist Stacy Rasgon in haar eigen notitie.
Voor anderen voelt het alsof de exportcontroles averechts hebben gewerkt: in plaats van China af te remmen, hebben ze innovatie afgedwongen. Terwijl de VS de toegang tot geavanceerde chips beperkten, vonden Chinese bedrijven als DeepSeek en Alibaba’s Qwen creatieve oplossingen: ze optimaliseerden trainingstechnieken en maakten gebruik van open-sourcetechnologie terwijl ze hun eigen chips ontwikkelden.
Ongetwijfeld zal iemand willen weten wat dit betekent voor AGI, dat door de meest ervaren AI-experts wordt gezien als een luchtkasteel dat bedoeld is om kapitaal te lokken. (In december verlaagde Altman van OpenAI de lat voor wat als AGI gold van iets dat “de mensheid zou kunnen verheffen” naar iets dat “veel minder belangrijk” zal zijn dan mensen denken.) Omdat AI-superintelligentie nog steeds grotendeels fantasierijk is, is het moeilijk te weten of het überhaupt mogelijk is — laat staan iets waar DeepSeek een redelijke stap in heeft gezet. In die zin klopt het walvislogo; dit is een industrie vol Ahabs. Het eindspel van AI is nog steeds ieders gok.
De toekomstige AI-leiders vroegen om
AI is een verhaal van overdaad: datacenters die energie verbruiken op de schaal van kleine landen, miljarden dollars kostende trainingsruns en een verhaal dat alleen techgiganten dit spel konden spelen. Voor velen voelt het alsof DeepSeek dat idee zojuist heeft weggeblazen.
Hoewel het misschien lijkt dat modellen als DeepSeek, door trainingskosten te verlagen, milieuvernietigende AI kunnen oplossen, is het helaas niet zo eenvoudig. Zowel Brundage als von Werra zijn het erover eens dat efficiëntere middelen betekenen dat bedrijven waarschijnlijk nog meer rekenkracht zullen gebruiken om betere modellen te krijgen. Von Werra zegt ook dat dit betekent dat kleinere startups en onderzoekers gemakkelijker toegang zullen hebben tot de beste modellen, dus de behoefte aan rekenkracht zal alleen maar toenemen.
DeepSeek’s gebruik van synthetische data is ook niet revolutionair, hoewel het wel laat zien dat het mogelijk is voor AI-labs om iets nuttigs te creëren zonder het hele internet te beroven. Maar die schade is al aangericht; er is maar één internet en dat heeft al modellen getraind die fundamenteel zullen zijn voor de volgende generatie. Synthetische data is geen complete oplossing om meer trainingsdata te vinden, maar het is een veelbelovende aanpak.
Het belangrijkste dat DeepSeek deed was simpelweg: goedkoper zijn. Je hoeft niet technisch aangelegd te zijn om te begrijpen dat krachtige AI-tools binnenkort veel betaalbaarder kunnen zijn. AI-leiders hebben beloofd dat de vooruitgang snel zal plaatsvinden. Een mogelijke verandering is dat iemand nu frontier-modellen in zijn garage kan maken.
De race om AGI is grotendeels denkbeeldig. Geld is echter echt genoeg. DeepSeek heeft overtuigend aangetoond dat geld alleen niet is wat een bedrijf aan de top van het veld brengt. De implicaties hiervan op de langere termijn kunnen de AI-industrie zoals we die kennen, hervormen.
1 gedachte over “Waarom iedereen zo in paniek raakt over DeepSeek”