I Met Sora stelde OpenAI, het bedrijf achter de chatbot ChatGPT, vorige week een artificial intelligence-model voor dat korte video’s genereert op basis van tekst. ‘We leren artificial intelligence de fysieke wereld in beweging te begrijpen en te simuleren, met als doel modellen te trainen die mensen helpen problemen op te lossen die echte interactie met de wereld vereisen’, stond in het lanceringsbericht van OpenAI.
Omdat de AI video’s er zo indrukwekkend uitzien, focust iedereen in die boodschap op het aspect ‘simuleren’. Maar op de lange termijn kan ‘begrijpen’, ook al klinkt dat minder sexy, een veel belangrijkere rol spelen.
- De auteur
Laurence Van Elegem is inafhankelijk trendonderzoeker en content director bij Scaleups.eu.
- De kwestie
Het AI-model Sora, dat vorige week werd voorgesteld, maakt video’s op basis van tekst.
- De conclusie
De video’s zijn een reden tot bezorgdheid voor de media en de entertainmentsector, die hun data gescrapet zien. Maar artificial intelligence-bedrijven halen hun data ook elders vandaan.
Bij het ontwikkelen van LLM’s, de taalmodellen die aan de basis liggen van artificial intelligence-conversatiebots, is zowel het schalen van computerkracht als van data een grote bottleneck. Zeker de data vormen een groot probleem voor spelers als OpenAI.
Een populaire bron voor die cruciale grondstof zijn de media. Niet alle spelers zijn daar even tevreden over. CNN, The Washington Post en The Guardian hebben de toegang tot hun content al geblokkeerd voor de webcrawlers van OpenAI. Andere, zoals The New York Times, hebben rechtszaken aangespannen tegen het oneigenlijke gebruik van hun intellectueel eigendom. Nog andere hebben zich bij de situatie neergelegd en laten zich betalen voor het gebruik van hun data. Semafor sloot een deal met Microsoft en Conde Nast met Apple. De Duitse mediareus Axel Springer en het persbureau AP sloten er een met OpenAI.
Willen we duiding overlaten aan AI-platformen met een heel eigen agenda?
De relatie tussen media- en artificial intelligence-bedrijven is gespannen, omdat die laatste weinig respect lijken te hebben voor copyright en intellectuele eigendom. Maar ook omdat platformen als ChatGPT onvermijdelijk verkeer van de media zullen afsnoepen. En dan hebben we het nog niet over de redacties, die door automatisering en artificial intelligence-schrijvers mogelijk worden gedecimeerd.
Hoe vaak zullen lezers nog naar websites surfen als ze gewoon een vraag kunnen intikken om een antwoord te krijgen? Wat wordt de impact op de content die de kwaliteitsmedia leveren? Willen we duiding overlaten aan AI-platformen met een heel eigen agenda?
Live data
Los daarvan blijft de vraag hoe grote artificial intelligence-bedrijven kwalitatieve data gaan verzamelen voor hun modellen als dat zo moeilijk en duur blijkt. Het antwoord wordt vermoedelijk: live data. Hun systemen gaan een punt bereiken waarop ze audio- en videodata van de straat en uit de huizen kunnen plukken. Onze toestellen en interfaces – camera’s in auto’s, AR-brillen, slimme deurbellen of robots – kunnen continu met ons meekijken en -luisteren.
Live data capture is niet nieuw: denk aan de beveiligingscamera’s in de straten. Maar als augmented reality (AR) en robots echt doorbreken, zal die praktijk exponentieel toenemen.
Wat heeft een artificial intelligence-bedrijf zoals OpenAI nodig om daarmee aan de slag te gaan? Eén: ongelooflijk veel energie. OpenAI-topman Sam Altman investeert niet toevallig in twee energiebedrijven: Helion Energy, waarmee ook Microsoft een overeenkomst tekende, en Oklo. Twee: ongelooflijk veel rekenkracht. En, tiens, Altman is op zoek naar 7.000 miljard dollar om zelf AI-chips te kunnen ontwikkelen. En drie: modellen die ‘de fysieke wereld in beweging begrijpen’.
De tekst-to-videocapaciteiten van Sora zijn maar het begin. Een speeltje. Er zijn redenen om bezorgd te zijn over de combo artificiële intelligentie en copyright: de toekomst van de media, de creatieve sector en de entertainmentindustrie. Maar het gaat veel verder: live data capturing met LLM’s zal gigantische gevolgen hebben voor de evolutie van zulke systemen en hun impact op de mens, de maatschappij en de omgeving.
Altman en co. zijn heel duidelijk over hun einddoel: artificial general intelligence (AGI). Zoals in het lanceringsbericht staat: ‘Sora dient als basis voor modellen die de echte wereld kunnen begrijpen en simuleren, een capaciteit waarvan wij geloven dat het een belangrijke mijlpaal zal zijn voor het bereiken van AGI.’
Of de maatschappij klaar is voor AGI en een wereld vol sensoren die begrijpen wie we zijn en wat we doen, laat ik maar even in het midden.
Artificiële intelligentie stapt een nieuwe wereld binnen met OpenAI’s Sora
Op de website van OpenAI zijn nu video’s te zien die gecreëerd zijn door Sora. Sora kan complexe scènes genereren met veel details in het onderwerp en in de achtergrond, en met meerdere personages. Dit toont aan dat het begrijpt wat er geschreven wordt, maar ook hoe het zich in de fysieke wereld afspeelt. Het kan specifieke details generen doordat het een goed begrip heeft van taal. Daardoor kan het ook levendige emoties en personages creëren, maar het kan ook meerdere shots binnen een video maken alsof iemand het gefilmd heeft.
Zwakke punten
De makers van Sora geven ook toe dat er momenteel nog een aantal zwakke punten zijn. Het heeft bijvoorbeeld moeite met het nauwkeurig nabootsen van de fysica van een complexe scene. Ook bepaalde gevallen van oorzaak en gevolg begrijpt het nog niet goed. Het verwart soms ook details en heeft moeite met precieze beschrijvingen van gebeurtenissen die in de tijd plaatsvinden. Daardoor ontstaan er video’s waarin er iemand bijvoorbeeld achteruitloopt, een stoel zweeft of hondjes die vermeerderen.
Wie gebruikt het?
Momenteel is het programma alleen voor specifieke groepen beschikbaar. Zo kunnen experts op vlak van beveiligingsevaluaties en creatieve professionals toegang krijgen. Ook een aantal beeldende kunstenaars, ontwerpers en filmmakers krijgen toegang zodat ze feedback geven aan de makers. Ze delen het programma nu al om het publiek een idee te geven over wat AI te bieden heeft. De makers van Sora benadrukken ook dat ze niet kunnen voorspellen op welke manier mensen dit programma gaan gebruiken.
Veiligheid
OpenAI neemt verschillende veiligheidsmaatregelen. Zo gaan ze met experten op vlak van misinformatie, haatdragende inhoud en vooroordelen samenwerken om het model te testen. Daarnaast gebruikt Sora al bestaande veiligheidsmethoden, maar worden er ook nieuwe technieken gemaakt om misleidende inhoud te detecteren. Daardoor kan de detectieclassificator video’s gemaakt door Sora herkennen.
Door deze maatregelen zal de tekstclassificator de prompts nakijken om te zien of het nakomt met het gebruiksbeleid. De beeldclassificators kijken de video’s na, die door Sora worden geproduceerd, om te zien of dit overeenkomt met het gebruiksbeleid voordat het aan de gebruiker wordt getoond.
Introducing Sora, our text-to-video model.
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024