OpenAI zegt dat het zijn nieuwe stemkloonproduct Voice Engine op kleine schaal heeft getest met een paar geselecteerde partners. De resultaten laten veelbelovende toepassingen voor de technologie zien, maar veiligheidsproblemen kunnen ervoor zorgen dat deze niet wordt vrijgegeven.
OpenAI zegt dat Voice Engine de stem van een mens kan klonen op basis van een enkele opname van 15 seconden van zijn stem. De tool kan vervolgens “natuurlijk klinkende spraak genereren die sterk lijkt op de oorspronkelijke spreker.”
Eenmaal gekloond, kan Voice Engine tekstinvoer omzetten in hoorbare spraak met behulp van ‘emotionele en realistische stemmen’. De mogelijkheden van de tool maken opwindende toepassingen mogelijk, maar brengen ook ernstige veiligheidsproblemen met zich mee.
Veelbelovende gebruiksscenario’s
OpenAI begon eind vorig jaar met het testen van Voice Engine om te zien hoe een kleine groep geselecteerde deelnemers de technologie kon gebruiken.
Enkele voorbeelden van hoe Voice Engine-testpartners het product gebruikten zijn:
- Adaptief lesgeven – Age of Learning gebruikte Voice Engine om leeshulp aan kinderen te bieden, voice-over-inhoud voor leermateriaal te creëren en gepersonaliseerde verbale reacties te bieden om met studenten te communiceren.
- Inhoud vertalen – HeyGen gebruikte Voice Engine voor videovertaling, zodat productmarketing- en verkoopdemo’s een bredere markt konden bereiken. De vertaalde audio behoudt het oorspronkelijke accent van de persoon. Dus als de audio van een moedertaalspreker Frans naar het Engels wordt vertaald, hoor je nog steeds zijn Franse accent.
- Bied bredere sociale diensten aan – Dimagi leidt gezondheidswerkers op in afgelegen omgevingen. Het maakte gebruik van Voice Engine om training en interactieve feedback te geven aan gezondheidswerkers in achtergestelde talen.
- Ondersteuning van non-verbale mensen – Livox stelt non-verbale mensen in staat te communiceren met behulp van alternatieve communicatieapparatuur. Met Voice Engine kunnen deze mensen een stem kiezen die hen het beste vertegenwoordigt, in plaats van iets dat robotachtiger klinkt.
- Patiënten helpen hun stem terug te krijgen – Lifespan heeft een pilot uitgevoerd met een programma dat Voice Engine aanbiedt aan mensen met spraakstoornissen als gevolg van kanker of neurologische aandoeningen.
Voice Engine is niet de eerste AI-tool voor het klonen van stemmen, maar de voorbeelden in de blogpost van OpenAI wijzen erop dat het state-of-the-art is en misschien zelfs beter is dan ElevenLabs.
Hier is slechts één voorbeeld van de natuurlijke buiging en emotionele kenmerken die het kan genereren.
OpenAI just launched Voice Engine,
It uses text input and a single 15-second audio sample to generate natural-sounding speech that closely resembles the original speaker.
Reference and Generated audio is very close and hard to differentiate.
More details in 🧵 pic.twitter.com/tJRrCO2WZP— AshutoshShrivastava (@ai_for_success) March 29, 2024
Bezorgdheid over de veiligheid
OpenAI zei dat het onder de indruk was van de gebruiksscenario’s die testdeelnemers bedachten, maar er zouden meer veiligheidsmaatregelen moeten worden genomen voordat het bedrijf zou beslissen “of en hoe deze technologie op grote schaal kan worden ingezet.”
OpenAI zegt dat technologie die iemands stem nauwkeurig kan reproduceren “ernstige risico’s met zich meebrengt, die vooral in een verkiezingsjaar hoog in het vaandel staan.” Valse Biden-robocalls en de nepvideo van Senaatskandidaat Kari Lake zijn hiervan voorbeelden.
Naast de duidelijke beperkingen in het algemene gebruiksbeleid, moesten de deelnemers aan de proef ‘expliciete en geïnformeerde toestemming hebben van de oorspronkelijke spreker’ en mochten ze geen product bouwen waarmee mensen hun eigen stem konden creëren.
OpenAI zegt dat het andere veiligheidsmaatregelen heeft geïmplementeerd, waaronder een audiowatermerk. Het bedrijf legde niet precies uit hoe, maar zei dat het “proactief toezicht” kon uitoefenen op het gebruik van Voice Engine.
Enkele andere grote spelers in de AI-industrie maken zich ook zorgen over het feit dat dit soort technologie in het wild terechtkomt.
Voice AI is by far the most dangerous modality.
Superhuman, persuasive voice is something we have minimal defences to.
Figuring out what to do about this should be one of our top priorities.
(We had sota models but didn’t release for this reason eg https://t.co/vjY99uCdTl) https://t.co/fKIZrVQCml
— Emad acc/acc (@EMostaque) March 29, 2024
Wat is het volgende?
Zal de rest van ons met Voice Engine kunnen spelen? Het is onwaarschijnlijk, en misschien is dat maar goed ook. Het potentieel voor kwaadwillig gebruik is enorm.
OpenAI beveelt instellingen zoals banken al aan om stemauthenticatie als veiligheidsmaatregel geleidelijk af te schaffen.
Voice Engine heeft een ingebed audiowatermerk, maar OpenAI zegt dat er meer werk nodig is om te identificeren wanneer audiovisuele inhoud door AI wordt gegenereerd.
Zelfs als OpenAI besluit Voice Engine niet uit te brengen, zullen anderen dat wel doen. De tijd dat je op je ogen en oren kon vertrouwen, is verleden tijd.