Dans une récente annonce médiatique, Google a fièrement dévoilé sa dernière intelligence artificielle connue sous le nom de Gemini, un événement très attendu dans la communauté technologique. Peu de temps après, cependant, des allégations ont fait surface accusant Google d'avoir surestimé les capacités de Gemini, en particulier dans une vidéo faisant partie de l'annonce.
Selon un article d'opinion cinglant du chroniqueur de Bloomberg Parmy Olson, la vidéo publiée par Google crée une illusion de fonctionnalité de Gemini qui pourrait être trop belle pour être vraie. Elle affirme que la description Google's des opérations multimodales de Gemini, qui associent les commandes de dialogue parlées à la reconnaissance d'images, pourrait être exagérée.
La vidéo controversée, qui dure un peu plus de six minutes, visualise les Gémeaux identifiant instantanément des images, même dans des dessins reliant les points, offrant ainsi des réponses rapides. De plus, Gemini est montré en train de suivre une liasse de papier pendant un jeu de tasse et de balle en temps réel.
Cependant, une mise en garde importante est cachée dans la description de la vidéo sur YouTube : la latence de sortie de Gemini dans la démo a été minimisée et les réponses raccourcies pour plus de clarté – des faits qui ont suscité l'indignation d'Olson. Citant une réponse de Google, Olson a rapporté dans son article sur Bloomberg que la démo dans la vidéo n'était pas en temps réel comme le laisse entendre, mais utilisait plutôt des images statiques extraites de séquences brutes, tandis que les réactions de Gemini correspondaient à des invites de texte pré-écrites. Olson affirme que cela est assez différent de l'annonce Google's d'une interaction vocale fluide avec Gemini, capable de réagir en temps réel à son environnement.
Elle va encore plus loin en suggérant que Google pourrait faire du « showboating » avec Gemini pour détourner l'attention de son retard par rapport au GPT d'OpenAI, la plateforme basée sur l'intelligence.
Lorsque The Verge a contacté Google concernant l'authenticité de la démo, le géant de la technologie a fait référence à un message d'Oriol Vinyals, vice-président de la recherche et du Deep Learning de DeepMind et également co-responsable de Gemini chez Google. Il a précisé que toutes les invites et sorties des utilisateurs dans la vidéo sont légitimes, bien que abrégées par souci de concision. Il a ensuite expliqué que la vidéo avait été créée pour démontrer à quoi pourraient ressembler les expériences des utilisateurs finaux lors de l'utilisation des fonctionnalités multimodales de Gemini, et que son objectif principal était d'inspirer les développeurs.
Vinyals a réitéré que l'équipe avait fourni à Gemini des images et des textes et l'avait incité à répondre en anticipant les résultats suivants.
Alors même que nous réfléchissons à cette controverse, le concept consistant à combiner des commandes vocales avec la reconnaissance d'images, comme l'illustre le Gemini Google's, offre un nouveau paradigme d'interaction qui séduira les développeurs. Des outils tels que la plate no-code d' AppMaster pourraient constituer une base pour l'intégration de telles innovations dans un développement d'applications complet, offrant des solutions convaincantes pouvant s'adapter parfaitement à l'évolution des tendances technologiques.