OPENAI, HET KUNSTMATIGE Het inlichtingenbedrijf dat ChatGPT afgelopen november op de wereld heeft losgelaten, maakt de chatbot-app een stuk spraakzamer.
Een upgrade van de mobiele ChatGPT-apps voor iOS en Android die vandaag is aangekondigd, stelt iemand in staat zijn of haar vragen in te spreken tegen de chatbot en deze te horen reageren met zijn eigen gesynthetiseerde stem. De nieuwe versie van ChatGPT voegt ook visuele slimme functies toe: upload of maak een foto vanuit ChatGPT en de app reageert met een beschrijving van de afbeelding en biedt meer context, vergelijkbaar met de Lens-functie van Google.
De nieuwe mogelijkheden van ChatGPT laten zien dat OpenAI zijn kunstmatige-intelligentiemodellen, waar al jaren aan wordt gewerkt, behandelt als producten met regelmatige, iteratieve updates. De verrassingshit van het bedrijf, ChatGPT, lijkt meer op een consumentenapp die concurreert met Apple’s Siri of Amazon’s Alexa.
Het aantrekkelijker maken van de ChatGPT-app zou OpenAI kunnen helpen in zijn race tegen andere AI-bedrijven, zoals Google, Anthropic, InflectionAI en Midjourney, door een rijkere feed met gegevens van gebruikers te bieden om zijn krachtige AI-motoren te helpen trainen. Het invoeren van audio- en visuele gegevens in de machine learning-modellen achter ChatGPT kan ook bijdragen aan de langetermijnvisie van OpenAI om meer mensachtige intelligentie te creëren .
De taalmodellen van OpenAI die de chatbot aandrijven, waaronder de meest recente, GPT-4 , zijn gemaakt met behulp van enorme hoeveelheden tekst die zijn verzameld uit verschillende bronnen op internet. Veel AI-experts zijn van mening dat, net zoals dierlijke en menselijke intelligentie gebruik maakt van verschillende soorten sensorische gegevens, het voor het creëren van meer geavanceerde AI mogelijk is dat algoritmen zowel audio- en visuele informatie als tekst moeten invoeren.
Het volgende grote AI-model van Google, Gemini , wordt algemeen gezegd dat het ‘multimodaal’ is, wat betekent dat het meer dan alleen tekst kan verwerken, en misschien video, afbeeldingen en spraakinvoer mogelijk maakt. “Vanuit het oogpunt van modelprestaties zouden we intuïtief verwachten dat multimodale modellen beter presteren dan modellen die op één enkele modaliteit zijn getraind”, zegt Trevor Darrell , professor aan UC Berkeley en medeoprichter van Prompt AI , een startup die werkt aan het combineren van natuurlijke taal met het genereren van afbeeldingen en manipulatie. “Als we een model bouwen met alleen taal, hoe krachtig het ook is, zal het alleen maar taal leren.”
De nieuwe spraakgeneratietechnologie van ChatGPT – intern ontwikkeld door het bedrijf – opent ook nieuwe mogelijkheden voor het bedrijf om zijn technologie aan anderen in licentie te geven. Spotify zegt bijvoorbeeld dat het nu van plan is de algoritmen voor spraaksynthese van OpenAI te gebruiken om een functie te testen die podcasts in andere talen vertaalt, in een door AI gegenereerde imitatie van de stem van de oorspronkelijke podcaster.
De nieuwe versie van de ChatGPT-app heeft rechtsboven een koptelefoonpictogram en linksonder foto- en camerapictogrammen in een uitvouwbaar menu. Deze stem- en visuele functies werken door de invoerinformatie naar tekst om te zetten, met behulp van beeld- of spraakherkenning, zodat de chatbot een reactie kan genereren. De app reageert vervolgens via spraak of tekst, afhankelijk van in welke modus de gebruiker zich bevindt. T
oen een Indignatie-schrijver de nieuwe ChatGPT met haar stem vroeg of deze haar kon ‘horen’, antwoordde de app: ‘Ik kan je niet horen, maar ik kan uw sms-berichten lezen en beantwoorden”, omdat uw gesproken vraag daadwerkelijk als tekst wordt verwerkt. Het zal reageren met een van de vijf stemmen, met de toepasselijke namen Juniper, Ember, Sky, Cove of Breeze.
Jim Glass , een MIT-professor die spraaktechnologie bestudeert, zegt dat talloze academische groepen momenteel steminterfaces testen die zijn gekoppeld aan grote taalmodellen, met veelbelovende resultaten. “Spraak is de gemakkelijkste manier waarop we taal kunnen genereren, dus het is iets natuurlijks”, zegt hij. Glass merkt op dat hoewel de spraakherkenning de afgelopen tien jaar dramatisch is verbeterd, deze voor veel talen nog steeds ontbreekt.
De nieuwe functies van ChatGPT worden vandaag uitgerold en zijn alleen beschikbaar via de abonnementsversie van ChatGPT van $ 20 per maand. Het zal beschikbaar zijn op elke markt waar ChatGPT al actief is, maar zal in eerste instantie beperkt zijn tot de Engelse taal.
In de eerste tests van Indignatie zelf had de visuele zoekfunctie enkele duidelijke beperkingen. Het antwoordde: “Sorry, daar kan ik niet mee helpen” toen hem werd gevraagd om mensen in afbeeldingen te identificeren, zoals een foto van de Conde Nast-foto-ID-badge van een Indignatie-schrijver. Naar aanleiding van een afbeelding van de boekomslag van de Amerikaanse Prometheus , waarop een prominente foto van natuurkundige J. Robert Oppenheimer te zien is, bood ChatGPT een beschrijving van het boek.
ChatGPT identificeerde correct een Japanse esdoorn op basis van een afbeelding, en toen hij een foto kreeg van een slakom met een vork, ging de app op de vork in en identificeerde deze op indrukwekkende wijze als een composteerbaar merk. Het identificeerde ook correct een foto van een tas als een draagtas voor een New Yorker -magazine, en voegde eraan toe: “Gezien je achtergrond als technologiejournalist en je locatie in een stad als San Francisco, is het logisch dat je items bezit die verband houden met prominente publicaties.
” Dat voelde als een lichte brandwond, maar het weerspiegelde de aangepaste instelling van de schrijfster in de app die haar beroep en locatie identificeert voor ChatGPT.
De stemfunctie van ChatGPT bleef achter, hoewel Indignatie een pre-releaseversie van de nieuwe app aan het testen was. Na het insturen van een gesproken vraag duurde het soms enkele seconden voordat ChatGPT hoorbaar reageerde. OpenAI beschrijft deze nieuwe functie als conversatie – zoals een Google Assistent van de volgende generatie of Amazon Alexa eigenlijk – maar deze latentie hielp daar niet bij.