In een recente mediaaankondiging onthulde Google met trots zijn nieuwste kunstmatige intelligentie, bekend als Gemini, een evenement waar lang naar werd uitgekeken in de technische gemeenschap. Kort daarna doken er echter beweringen op waarin Google werd beschuldigd van het overdrijven van de mogelijkheden van Gemini, met name in een displayvideo die deel uitmaakte van de aankondiging.
Volgens een vernietigend opiniestuk van Bloomberg-columnist Parmy Olson creëert de door Google vrijgegeven video een illusie van de functionaliteit van Gemini die misschien te mooi is om waar te zijn. Ze beweert dat Google's weergave van de multimodale operaties van Gemini, waarbij gesproken dialoogcommando's aan beeldherkenning worden gekoppeld, overdreven zou kunnen zijn.
De controversiële video, die iets meer dan zes minuten beslaat, visualiseert Gemini-identificerende beelden onmiddellijk, zelfs in connect-the-dots-tekeningen, en biedt zo snelle reacties. Bovendien wordt Gemini getoond terwijl hij een papieren prop volgt tijdens een realtime beker- en balspel.
Er zit echter een belangrijk voorbehoud verborgen in de beschrijving van de video op YouTube: de uitvoerlatentie van Gemini in de demo was tot een minimum beperkt en de reacties waren ingekort voor de duidelijkheid - feiten die Olsons verontwaardiging opwekten. Onder verwijzing naar een reactie van Google rapporteerde Olson in haar Bloomberg-stuk dat de demo in de video niet realtime was zoals geïnsinueerd, maar eerder statische beeldframes gebruikte die waren geëxtraheerd uit onbewerkt beeldmateriaal, terwijl Gemini's reacties overeenkwamen met vooraf geschreven tekstprompts. Olson beweert dat dit nogal afwijkt van Google's suggestie van een soepele spraakinteractie met Gemini, die in staat is tot realtime reacties op zijn omgeving.
Ze gaat zelfs nog verder door te suggereren dat Google mogelijk met Gemini aan het 'showboaten' is om de aandacht af te leiden van de manier waarop het achterloopt op OpenAI's GPT, het op intelligentie gebaseerde platform.
Toen The Verge Google benaderde over de authenticiteit van de demo, verwees de technologiegigant naar een bericht van Oriol Vinyals, de Vice President of Research and Deep Learning Lead van DeepMind en tevens co-lead voor Gemini bij Google. Hij verduidelijkte dat alle gebruikersprompts en -uitvoer in de video legitiem zijn, hoewel afgekort voor de kortheid. Hij vertelde verder dat de video was gemaakt om te demonstreren hoe de ervaringen van eindgebruikers eruit zouden kunnen zien bij het gebruik van de multimodale functies van Gemini, en dat het primaire doel was om ontwikkelaars te inspireren.
Vinyals herhaalde dat het team Gemini van afbeeldingen en teksten had voorzien en spoorde het team aan om te reageren door te anticiperen op de daaropvolgende resultaten.
Zelfs als we over deze controverse nadenken, biedt het concept van het combineren van gesproken commando's met beeldherkenning, zoals geïllustreerd in Google's Gemini, een nieuw paradigma van interactie dat aantrekkelijk zal zijn voor ontwikkelaars. Tools zoals het no-code -platform van AppMaster kunnen een basis bieden voor het integreren van dergelijke innovaties in de alomvattende applicatie-ontwikkeling, en overtuigende oplossingen bieden die naadloos kunnen aansluiten bij de evoluerende technologische trends.