Een paar jaar geleden was het reproduceren van een menselijke stem via de computer deepfake een lang proces en vereiste er een enorme hoeveelheid gegevens. Tegenwoordig is het een triviale handeling waarvoor slechts een paar seconden opname nodig is. Deze snelle ontwikkeling roept, afgezien van de technologische aspecten, vragen op over de toepassingen van deze instrumenten en hun transparantie: hoe kunnen we gemakkelijk een fragment van kunstmatig gegenereerde stem identificeren?
Kloon een deepfake stem uit een spraakvoorbeeld van een paar seconden. In slechts een paar jaar is het genereren van spraak, of deepfakes van stemmen , van een lang en moeizaam proces uitgegroeid tot een gemakkelijk toegankelijke en ultrasnelle service. En hoewel aangepaste of gesynthetiseerde stemmen steeds gebruikelijker en realistischer worden, is het niet altijd gemakkelijk om ze te identificeren.
Het genereren van spraak heeft meer dan 200 jaar geschiedenis. Onder de eerste wetenschappers die zich machines voorstelden die konden spreken, kunnen we de Zwitserse wiskundige Leonhard Euler noemen, die in 1761 de aard van klinkers en de mogelijkheid om ze te reproduceren in twijfel trok. Natuurlijk lieten de technische vaardigheden van die tijd het creëren van continue en realistische spraak niet toe, maar het idee was er al.
Het vakgebied heeft de afgelopen decennia een snelle evolutie doorgemaakt, parallel met de ontwikkeling van de informatica. De kwaliteit van de deepfake stemmen die de afgelopen jaren zijn gegenereerd, is alleen maar sneller en sneller toegenomen. Eind jaren negentig ontstonden er twee concurrerende benaderingen.
De eerste, synthese door aaneenschakeling, bestaat uit het knippen van bestaande spraaksegmenten en deze vervolgens in de juiste volgorde aan elkaar plakken. Probabilistische synthese probeert op haar beurt de waarschijnlijkheid van de overgang van het ene geluid naar het andere te modelleren. Deze twee benaderingen waren erg populair tot de komst van neurale netwerken.
Een technologische doorbraak vond plaats met de release van het eerste neurale model dat in staat was deepfake spraak te genereren die bijna niet te onderscheiden is van menselijke spraak, WaveNet , ontwikkeld door het bedrijf Deepmind in 2016. Alles versnelde vervolgens en de systemen vermenigvuldigden zich.
In slechts een paar jaar tijd hebben de vooruitgang op het gebied van rekenkracht en die van neurale netwerkarchitecturen, evenals het gebruik van grote databases met honderden of zelfs duizenden uren aan natuurlijke spraak, ervoor gezorgd dat synthesemodellen zeer efficiënt zijn geworden. Het VALL-E- systeem van Microsoft , dat begin januari 2023 werd uitgebracht, is bijvoorbeeld getraind op een set van ongeveer 60.000 uur aan spraak en kan de stem van een spreker reproduceren uit een sample van slechts een paar seconden.
Hoe produceer ik voice-on-demand?
Er bestaan verschillende technieken voor het genereren van deepfake spraak, afhankelijk van het type gegevens dat als invoer wordt gebruikt (tekst of spraak). In het eerste geval de modellen waarmee je van tekst naar een vocaal signaal kunt gaan: dit is spraaksynthese. In het tweede geval is de invoer het akoestische signaal van een spreker dat we vervolgens willen aanpassen zodat het wordt waargenomen alsof het door iemand anders is gesproken: dit is stemconversie .
In beide gevallen is het noodzakelijk om de identiteit van de spreker die u wilt reproduceren te specificeren. Een eerste categorie van benaderingen bestaat uit het aanpassen van het model zodat het specifiek wordt voor een bepaalde spreker. Vervolgens gebruiken we een set gegevens die specifiek zijn voor de beoogde spreker. De tweede categorie is gebaseerd op het gebruik van een model dat sprekers leert representeren in een aaneengesloten ruimte.
Technisch gezien leren neurale netwerken, uit gegevens van duizenden sprekers, hoe ze stemidentiteiten in relatie tot elkaar kunnen organiseren. Slechts een paar seconden spreken zijn dan voldoende om te berekenen hoe je een nieuwe spreker in deze ruimte ‘plaatst’.
Deze ‘sprekerkaart’ helpt vervolgens bij het genereren van deepfake spraak. De spraaksynthesizer kan dan een signaal genereren dat overeenkomt met een bepaalde tekst en de stem van de doelspreker. Deze techniek wordt gewoonlijk stemklonen genoemd. Hetzelfde type techniek bestaat door de tekst die als invoer wordt gegeven te vervangen door een akoestisch signaal van een andere spreker om stemconversie te bereiken. In dit geval wijzigt het systeem “eenvoudig” de identiteit van de spreker van audiocontent.
Veel apps, maar niet altijd goed bedoeld
De kwaliteit die met de huidige systemen wordt verkregen is zeer goed. Op dit moment kunnen we de kenmerken van de stem echter niet echt naar wens bepalen, die afhankelijk zijn van de gegevens die worden gebruikt om de modellen te trainen. Aan de ene kant kan het model niet uitvinden wat het niet heeft gezien tijdens de training, aan de andere kant laten de huidige technieken geen nauwkeurige controle toe over de gegenereerde output.
Er is dus een gebrek aan hefbomen om elementen aan te passen die verband houden met de identiteit van de stem, zoals waargenomen leeftijd, accent of zelfs emotie. Ook dit is onderwerp van lopend onderzoek, zoals in het kader van het [EVA] project.
De huidige kwaliteit stimuleert de ontwikkeling van nieuwe, zeer leuke toepassingen en commerciële toepassingen. Het is heel gemakkelijk om de stemmen van beroemdheden te lenen om ze te laten zeggen wat je wilt, of om gepersonaliseerde berichten te maken door je eigen stem aan te passen.
Zelfs als er nog steeds historische toepassingen bestaan, zoals voor het uitzenden van berichten op stations of in het openbaar vervoer, is het nu mogelijk om deze technologieën te gebruiken op het gebied van film – filmnasynchronisatie –, videogames of zelfs voor toepassingen die verband houden met real-time spraak-naar-communicatie. -spraakvertaling.
Toepassingen gerelateerd aan medische of persoonlijke assistentie worden niet buiten beschouwing gelaten: de deepfake spraaksynthesetoepassing in een stemherstelcontext stelt een gebruiker in staat een systeem te hebben dat zijn vocale identiteit reproduceert.
De andere kant van de medaille is dat het gemakkelijk wordt om iemands identiteit toe te eigenen: onder nepnieuws moeten we nu waakzaam zijn met betrekking tot deepfakes . In de media bloeien de voorbeelden op, die soms het hart raken van de spelers die deze tools ontwikkelen: OpenAI moest dus een stem die heel dicht bij die van Scarlett Johansson leek, uit de ChatGPT-catalogus verwijderen . Op dit moment is de vooruitgang op het gebied van generatie helaas groter dan die op het gebied van gegenereerde spraakdetectie.
Identificeer deepfake synthetische stemmen
Het veld van deepfake -detectie is echter booming. Uitdagingen die tot doel hebben te detecteren of er al dan niet een stem is gegenereerd, zoals ASVSPoof , maken het dus mogelijk om deze technieken te verbeteren, parallel met de ontwikkeling van onderzoeksprojecten, zoals het RAPID-project van Whispeak in samenwerking met de IRISA .
Een ander element van de oplossing, naast detectie, kan het watermerken van inhoud zijn om de authenticiteit ervan te garanderen. Dit onderzoeksgebied bestaat uit het vinden van manieren om de authenticiteit van documenten te bewijzen, zonder dat dit voor de eindgebruiker waarneembaar is. In het geval van geluid gaat het om het inbrengen van elementen in het signaal die het mogelijk maken de authenticiteit van de inhoud te bewijzen zonder het luisteren te belemmeren.
Dit vereist natuurlijk het opzetten van een virtueuze cirkel waarin iedereen zich ervan bewust wordt dat voordat we geloven wat we horen, we moeten verifiëren dat het echt van een authentieke opname komt. In de tussentijd is kritisch denken de beste manier om te voorkomen dat je in de val loopt.
In slechts een paar jaar tijd hebben spraaksynthese- en conversietechnologieën duizelingwekkende vooruitgang geboekt, waardoor nieuwe ethische en technische problemen zijn ontstaan. De uitdaging bestaat er vanaf nu in om gevarieerde toepassingen mogelijk te maken zonder het misleidende gebruik van deepfake gegenereerde stemmen te faciliteren, en daarmee de natuurlijke of kunstmatige oorsprong van geluidsopnamen te verduidelijken. Zo kunnen we een stortvloed aan bijzonder realistisch nepnieuws voorkomen of zelfs het onderscheid tussen mens en deepfake kunstmatige intelligentie vervagen, zoals weergegeven in de film Her van Spike Jonze.