
DeepSeek
DeepSeek State-of-the-art kunstmatige intelligentiesystemen zoals OpenAI’s ChatGPT , Google’s Gemini en Anthropic’s Claude hebben de publieke verbeelding gevangen door vloeiende tekst in meerdere talen te produceren als reactie op gebruikersprompts. Die bedrijven hebben ook de krantenkoppen gehaald met de enorme bedragen die ze hebben geïnvesteerd om steeds krachtigere modellen te bouwen.
Een AI-startup uit China, DeepSeek , heeft de verwachtingen over hoeveel geld er nodig is om de nieuwste en beste AI’s te bouwen, verstoord. In het proces hebben ze twijfels gezaaid over de miljarden dollars aan investeringen door de grote AI-spelers.
Ik studeer machine learning . DeepSeeks baanbrekende debuut komt niet neer op een verbluffende technologische doorbraak, maar op een beproefde praktijk: het vinden van efficiëntie. In een vakgebied dat enorme computerbronnen verbruikt, is dat van groot belang gebleken.
Waar de kosten zijn
Het ontwikkelen van zulke krachtige AI-systemen begint met het bouwen van een groot taalmodel . Een groot taalmodel voorspelt het volgende woord op basis van voorgaande woorden. Als het begin van een zin bijvoorbeeld is “De relativiteitstheorie werd ontdekt door Albert”, kan een groot taalmodel voorspellen dat het volgende woord “Einstein” is. Grote taalmodellen worden getraind om goed te worden in zulke voorspellingen in een proces dat pretraining wordt genoemd.
Voortraining vereist veel data en computerkracht. De bedrijven verzamelen data door het web te crawlen en boeken te scannen. Computers worden meestal aangestuurd door grafische verwerkingseenheden , of GPU’s. Waarom graphics? Het blijkt dat zowel computergraphics als de kunstmatige neurale netwerken die ten grondslag liggen aan grote taalmodellen afhankelijk zijn van hetzelfde gebied van wiskunde dat bekend staat als lineaire algebra. Grote taalmodellen slaan intern honderden miljarden getallen op die parameters of gewichten worden genoemd. Het zijn deze gewichten die tijdens de voortraining worden aangepast.
Pretraining is echter niet genoeg om een consumentenproduct als ChatGPT op te leveren. Een voorgetraind groot taalmodel is doorgaans niet goed in het volgen van menselijke instructies. Het is mogelijk ook niet afgestemd op menselijke voorkeuren. Het kan bijvoorbeeld schadelijke of beledigende taal produceren, die beide aanwezig zijn in tekst op het web.
Het voorgeprogrammeerde model doorloopt daarom meestal extra trainingsfasen. Een van die fasen is instructie-afstemming , waarbij het model voorbeelden van menselijke instructies en verwachte reacties te zien krijgt. Na instructie-afstemming volgt een fase die reinforcement learning van menselijke feedback wordt genoemd . In deze fase worden menselijke annotators meerdere grote taalmodelreacties op dezelfde prompt getoond. De annotators wordt vervolgens gevraagd aan te geven welke reactie ze prefereren.
Het is makkelijk te zien hoe de kosten oplopen bij het bouwen van een AI-model: het inhuren van topkwaliteit AI-talent, het bouwen van een datacenter met duizenden GPU’s, het verzamelen van data voor pretraining en het uitvoeren van pretraining op GPU’s. Daarnaast zijn er kosten verbonden aan het verzamelen van data en berekeningen in de instructie-afstemming en reinforcement learning van menselijke feedbackfasen.
Ook wij hebben jou steun nodig in 2025, gun ons een extra bakkie koffie groot of klein.
Dank je en proost?
Wij van Indignatie AI zijn je eeuwig dankbaar
Alles bij elkaar kunnen de kosten voor het bouwen van een geavanceerd AI-model oplopen tot 100 miljoen dollar . GPU-training is een belangrijk onderdeel van de totale kosten.
De uitgaven stoppen niet wanneer het model klaar is. Wanneer het model wordt geïmplementeerd en reageert op gebruikersprompts, gebruikt het meer berekeningen die bekend staan als testtijd of inferentietijdberekening . Testtijdberekening heeft ook GPU’s nodig. In december 2024 kondigde OpenAI een nieuw fenomeen aan dat ze zagen met hun nieuwste model o1: naarmate de testtijdberekening toenam, werd het model beter in logische redeneertaken zoals wiskundeolympiade en competitieve coderingsproblemen.
Het verminderen van het verbruik van hulpbronnen
Het leek er dus op dat de weg naar het bouwen van de beste AI-modellen ter wereld was om te investeren in meer berekeningen tijdens zowel training als inferentie. Maar toen kwam DeepSeek in het strijdperk en doorbrak deze trend.
Hun V-serie modellen, die culmineerden in het V3 model , gebruikten een reeks optimalisaties om het trainen van geavanceerde AI-modellen aanzienlijk zuiniger te maken. Hun technische rapport stelt dat het hen minder dan $ 6 miljoen dollar kostte om V3 te trainen. Ze geven toe dat deze kosten niet de kosten omvatten van het inhuren van het team, het doen van het onderzoek, het uitproberen van verschillende ideeën en het verzamelen van gegevens. Maar $ 6 miljoen is nog steeds een indrukwekkend klein bedrag voor het trainen van een model dat wedijvert met toonaangevende AI-modellen die zijn ontwikkeld met veel hogere kosten.
De kostenverlaging was niet te danken aan één wondermiddel. Het was een combinatie van vele slimme technische keuzes, waaronder het gebruik van minder bits om modelgewichten weer te geven, innovatie in de neurale netwerkarchitectuur en het verminderen van communicatieoverhead terwijl gegevens tussen GPU’s worden doorgegeven.
Het is interessant om op te merken dat het DeepSeek-team vanwege de Amerikaanse exportbeperkingen op China geen toegang had tot high performance GPU’s zoals de Nvidia H100. In plaats daarvan gebruikten ze Nvidia H800 GPU’s , die Nvidia ontwierp om lagere prestaties te leveren, zodat ze voldeden aan de Amerikaanse exportbeperkingen. Werken met deze beperking lijkt nog meer vindingrijkheid van het DeepSeek-team te hebben losgemaakt.
DeepSeek innoveerde ook om inferentie goedkoper te maken, waardoor de kosten van het uitvoeren van het model werden verlaagd. Bovendien brachten ze een model uit genaamd R1 dat vergelijkbaar is met OpenAI’s o1- model voor redeneertaken.
Ze hebben alle modelgewichten voor V3 en R1 openbaar gemaakt . Iedereen kan hun modellen downloaden en verder verbeteren of aanpassen. Bovendien heeft DeepSeek hun modellen vrijgegeven onder de permissieve MIT-licentie , die anderen toestaat de modellen te gebruiken voor persoonlijke, academische of commerciële doeleinden met minimale beperkingen.
Verwachtingen opnieuw instellen
DeepSeek heeft het landschap van grote AI-modellen fundamenteel veranderd. Een economisch getraind open gewichtsmodel is nu vergelijkbaar met duurdere en gesloten modellen waarvoor betaalde abonnementsplannen nodig zijn.
De onderzoeksgemeenschap en de aandelenmarkt zullen enige tijd nodig hebben om zich aan deze nieuwe realiteit aan te passen.