In de loop van 2025 verbeterden deepfakes aanzienlijk. Door AI gegenereerde gezichten, stemmen en volledige lichaamsbeelden die echte mensen nabootsen, werden van een veel hogere kwaliteit dan zelfs veel experts een paar jaar geleden hadden verwacht. Ze werden ook steeds vaker gebruikt om mensen te misleiden.
In veel alledaagse situaties – met name videogesprekken met een lage resolutie en media die worden gedeeld op sociale media – is het realisme van synthetische media nu zo hoog dat ze zelfs niet-deskundige kijkers betrouwbaar voor de gek houden. In de praktijk zijn synthetische media voor gewone mensen en in sommige gevallen zelfs voor instellingen niet meer te onderscheiden van authentieke opnames.
Deze toename beperkt zich niet alleen tot de kwaliteit. Het aantal deepfakes is explosief gegroeid: cybersecuritybedrijf DeepStrike schat dat het aantal online deepfakes zal stijgen van ongeveer 500.000 in 2023 naar ongeveer 8 miljoen in 2025, met een jaarlijkse groei van bijna 900%.
Ik ben een computerwetenschapper die onderzoek doet naar deepfakes en andere synthetische media. Vanuit mijn perspectief zie ik dat de situatie in 2026 waarschijnlijk zal verslechteren, omdat deepfakes dan synthetische artiesten worden die in realtime op mensen kunnen reageren.
Dramatische verbeteringen
Verschillende technische verschuivingen liggen ten grondslag aan deze dramatische escalatie. Ten eerste heeft het realisme van video’s een aanzienlijke sprong voorwaarts gemaakt dankzij videogeneratiemodellen die specifiek zijn ontworpen om temporele consistentie te behouden . Deze modellen produceren video’s met coherente beweging, consistente identiteiten van de afgebeelde personen en inhoud die van frame tot frame logisch is. De modellen scheiden de informatie met betrekking tot de weergave van iemands identiteit van de informatie over beweging, zodat dezelfde beweging aan verschillende identiteiten kan worden gekoppeld , of dezelfde identiteit meerdere soorten bewegingen kan hebben.
Deze modellen produceren stabiele, coherente gezichten zonder het flikkeren, vervormen of structurele afwijkingen rond de ogen en kaaklijn die voorheen als betrouwbaar forensisch bewijs dienden bij deepfakes.
Ten tweede heeft stemklonen wat ik de “ononderscheidbaarheidsdrempel” zou noemen overschreden. Een paar seconden audio zijn nu voldoende om een overtuigende kloon te genereren – compleet met natuurlijke intonatie, ritme, nadruk, emotie, pauzes en ademhalingsgeluiden. Deze mogelijkheid voedt nu al grootschalige fraude. Sommige grote retailers melden dat ze meer dan 1000 door AI gegenereerde oplichtingsgesprekken per dag ontvangen. De kenmerken die vroeger synthetische stemmen verraadden, zijn grotendeels verdwenen.
Ten derde hebben consumententools de technische drempel vrijwel tot nul gereduceerd. Upgrades van OpenAI’s Sora 2 en Google’s Veo 3 , in combinatie met een golf van startups, betekenen dat iedereen een idee kan beschrijven, een groot taalmodel zoals OpenAI’s ChatGPT of Google’s Gemini een script kan laten opstellen en binnen enkele minuten gepolijste audiovisuele media kan genereren . AI-agenten kunnen het hele proces automatiseren. De mogelijkheid om op grote schaal coherente, verhaalgedreven deepfakes te genereren is in feite gedemocratiseerd.
Deze combinatie van een explosieve toename en persona’s die bijna niet te onderscheiden zijn van echte mensen, zorgt voor serieuze uitdagingen bij het opsporen van deepfakes , vooral in een mediaomgeving waar de aandacht van mensen versnipperd is en content sneller circuleert dan dat deze kan worden geverifieerd. Er is in de praktijk al schade aangericht – van desinformatie tot gerichte intimidatie en financiële oplichting – door deepfakes die zich verspreiden voordat mensen zich realiseren wat er gebeurt.
De toekomst is realtime.
Vooruitkijkend is de trend voor volgend jaar duidelijk: deepfakes ontwikkelen zich richting realtime synthese, waarmee video’s kunnen worden geproduceerd die de nuances van een menselijk uiterlijk nauwkeurig nabootsen, waardoor het voor deepfakes gemakkelijker wordt om detectiesystemen te omzeilen. De grens verschuift van statisch visueel realisme naar temporele en gedragsmatige coherentie: modellen die live of bijna live content genereren in plaats van vooraf gerenderde clips.
Identiteitsmodellering convergeert naar uniforme systemen die niet alleen vastleggen hoe iemand eruitziet, maar ook hoe die persoon beweegt, klinkt en spreekt in verschillende contexten . Het resultaat gaat verder dan “dit lijkt op persoon X” en wordt “dit gedraagt zich als persoon X in de loop van de tijd”. Ik verwacht dat alle deelnemers aan videogesprekken in realtime worden gesynthetiseerd; interactieve, door AI aangestuurde acteurs waarvan de gezichten, stemmen en maniertjes zich direct aanpassen aan een aanwijzing; en oplichters die responsieve avatars inzetten in plaats van statische video’s.
Naarmate deze mogelijkheden zich verder ontwikkelen, zal de perceptiekloof tussen synthetische en authentieke menselijke media steeds kleiner worden. De belangrijkste verdedigingslinie zal verschuiven van menselijk oordeel naar bescherming op infrastructuurniveau. Denk hierbij aan veilige herkomstbepaling, zoals cryptografisch ondertekende media, en AI-tools die gebruikmaken van de specificaties van de Coalition for Content Provenance and Authenticity . Ook multimodale forensische tools zoals de Deepfake-o-Meter van mijn lab zullen van grote invloed zijn .
Het is niet langer voldoende om alleen maar intensiever naar pixels te kijken.