Genie leert games besturen door urenlang naar video te kijken. Het zou ook kunnen helpen bij het trainen van robots van de volgende generatie.
OpenAI’s recente onthulling van zijn verbluffende generatieve model Sora genieheeft de grenzen verlegd van wat mogelijk is met tekst-naar-video . Nu brengt Google DeepMind ons tekst-naar-videogames .
Het nieuwe model, genaamd Genie, kan aan de hand van een korte beschrijving, een handgetekende schets of een foto een speelbaar videospel maken in de stijl van klassieke 2D-platformgames zoals Super Mario Bros. Maar verwacht niets snels. tempo. De games draaien op één frame per seconde, tegenover de typische 30 tot 60 frames per seconde van de meeste moderne games.
“Het is cool werk”, zegt Matthew Guzdial, een AI-onderzoeker aan de Universiteit van Alberta, die een paar jaar geleden een soortgelijke gamegenerator ontwikkelde.
Genie werd getraind op 30.000 uur video van honderden 2D-platformgames die van internet waren gehaald. Anderen hebben deze aanpak al eerder gevolgd, zegt Guzdial. Zijn eigen gamegenerator leerde van video’s om abstracte platformgames te creëren . Nvidia gebruikte videogegevens om een model genaamd GameGAN te trainen , dat klonen van games als Pac-Man kon produceren.
Nvidia trainde GameGAN met invoeracties (zoals het indrukken van knoppen op een controller), evenals videobeelden: een videoframe waarin Mario springt werd gecombineerd met de Jump-actie, enzovoort. Het taggen van videobeelden met invoeracties kost veel werk, waardoor de hoeveelheid beschikbare trainingsgegevens beperkt is.
Het model van Genie en Guzdial werden daarentegen allebei alleen op videobeelden getraind. Guzdial’s model leerde niveau-indelingen en spelregels, weergegeven in code. In het geval van Genie leerde het generatieve model een visuele representatie, waardoor het starterafbeeldingen in spelniveaus kon omzetten. Deze aanpak zet talloze uren bestaande online video om in potentiële trainingsgegevens.
Genie leerde welke van de acht mogelijke acties ervoor zouden zorgen dat het gamepersonage in een video van positie zou veranderen. Het genereert elk nieuw frame van het spel on-the-fly, afhankelijk van de actie die de speler onderneemt. Druk op Jump en Genie werkt de huidige afbeelding bij om het spelpersonage te laten springen; druk op Links en de afbeelding verandert en laat zien dat het personage naar links is verplaatst. Het spel tikt actie voor actie af, waarbij elk nieuw frame helemaal opnieuw wordt gegenereerd terwijl de speler speelt.
Toekomstige versies van Genie zouden sneller kunnen werken. “Er is geen fundamentele beperking die ons ervan weerhoudt 30 frames per seconde te halen”, zegt Tim Rocktäschel, onderzoekswetenschapper bij Google DeepMind en leider van het team achter dit werk. “Genie gebruikt veel van dezelfde technologieën als hedendaagse grote taalmodellen, waarbij aanzienlijke vooruitgang is geboekt bij het verbeteren van de inferentiesnelheid.”
Genie leerde enkele algemene visuele eigenaardigheden van platformgames kennen. Veel games van dit type maken gebruik van parallax, waarbij de voorgrond sneller zijwaarts beweegt dan de achtergrond. Genie voegt dit effect vaak toe aan de games die het genereert.
Hoewel Genie een intern onderzoeksproject is en niet zal worden uitgebracht, merkt Guzdial op dat het Google DeepMind-team zegt dat het op een dag zou kunnen worden omgezet in een tool voor het maken van games, iets waar hij ook aan werkt. “Ik ben zeker geïnteresseerd om te zien wat ze bouwen”, zegt hij.
Virtuele speeltuinen
Maar de Google DeepMind-onderzoekers zijn geïnteresseerd in meer dan alleen het genereren van games. Het team achter Genie werkt aan open leren, waarbij AI-gestuurde bots in een virtuele omgeving worden geplaatst en met vallen en opstaan verschillende taken moeten oplossen (een techniek die bekend staat als versterkend leren).
In 2021 ontwikkelde een ander DeepMind-team een virtuele speeltuin genaamd Xland , waarin bots leerden samenwerken aan eenvoudige taken zoals het verplaatsen van obstakels. Sandboxen zoals Xland zullen cruciaal zijn voor het trainen van toekomstige bots op een reeks verschillende uitdagingen voordat ze worden geconfronteerd met scenario’s uit de echte wereld. De videogamevoorbeelden bewijzen dat Genie kan worden gebruikt om dergelijke virtuele speeltuinen te genereren.
Anderen hebben soortgelijke instrumenten ontwikkeld om de wereld te bouwen. David Ha van Google Brain en Jürgen Schmidhuber van het AI-lab IDSIA in Zwitserland ontwikkelden bijvoorbeeld in 2018 een tool die bots trainde in op games gebaseerde virtuele omgevingen, genaamd wereldmodellen . Maar nogmaals, in tegenstelling tot Genie vereisten deze dat de trainingsgegevens invoeracties bevatten.
Het team demonstreerde hoe dit vermogen ook nuttig is in de robotica. Toen Genie video’s te zien kreeg van echte robotarmen die verschillende huishoudelijke voorwerpen manipuleerden, leerde het model welke acties die arm kon uitvoeren en hoe deze te besturen. Toekomstige robots zouden nieuwe taken kunnen leren door videotutorials te bekijken.
“Het is moeilijk te voorspellen welke gebruiksscenario’s mogelijk zullen zijn”, zegt Rocktäschel. “We hopen dat projecten als Genie mensen uiteindelijk nieuwe hulpmiddelen zullen bieden om hun creativiteit te uiten.”