In un recente annuncio sui media, Google ha presentato con orgoglio la sua ultima intelligenza artificiale conosciuta come Gemini, un evento molto atteso dalla comunità tecnologica. Poco dopo, tuttavia, sono emerse accuse che accusavano Google di sopravvalutare le capacità di Gemini, in particolare in un video display che faceva parte dell'annuncio.
Secondo un feroce articolo di opinione dell'editorialista di Bloomberg Parmy Olson, il video pubblicato da Google crea un'illusione della funzionalità di Gemini che potrebbe essere troppo bella per essere vera. Lei sostiene che la rappresentazione Google's delle operazioni multimodali di Gemini, che collegano i comandi del dialogo parlato con il riconoscimento delle immagini, potrebbe essere esagerata.
Il controverso video, che dura poco più di sei minuti, visualizza i Gemelli che identificano istantaneamente le immagini, anche nei disegni che uniscono i punti, offrendo così risposte immediate. Inoltre, Gemini viene mostrato mentre traccia un batuffolo di carta durante una partita di coppa e palla in tempo reale.
Tuttavia, nella descrizione del video su YouTube si nasconde un avvertimento importante: la latenza dell'output di Gemini nella demo è stata ridotta al minimo e le risposte abbreviate per chiarezza, fatti che hanno suscitato l'indignazione di Olson. Citando una risposta di Google, Olson ha riferito nel suo articolo su Bloomberg che la demo nel video non era in tempo reale come insinuato, ma utilizzava piuttosto fotogrammi di immagini statiche estratti da filmati grezzi, mentre le reazioni di Gemini corrispondevano a istruzioni di testo pre-scritte. Olson afferma che questo è abbastanza diverso dall'annuncio Google's di un'interazione vocale fluida con Gemini, capace di risposte in tempo reale al suo ambiente.
Si spinge anche oltre, suggerendo che Google potrebbe "mostrarsi" con Gemini per distogliere l'attenzione da come è in ritardo rispetto al GPT di OpenAI, la piattaforma basata sull'intelligence.
Quando The Verge si è rivolto a Google in merito all'autenticità della demo, il gigante della tecnologia ha fatto riferimento a un post di Oriol Vinyals, che è il vicepresidente della ricerca e del deep learning di DeepMind e anche il co-responsabile di Gemini presso Google. Ha chiarito che tutte le richieste e i risultati degli utenti nel video sono legittimi, sebbene abbreviati per brevità. Ha continuato affermando che il video è stato creato per dimostrare come potrebbero apparire le esperienze dell'utente finale quando si utilizzano le funzionalità multimodali di Gemini e il suo obiettivo principale era ispirare gli sviluppatori.
Vinyals ha ribadito che il team ha fornito a Gemini immagini e testi e lo ha spinto a rispondere anticipando i risultati successivi.
Anche se riflettiamo su questa controversia, il concetto di combinare i comandi vocali con il riconoscimento delle immagini, come illustrato in Gemini Google's, offre un nuovo paradigma di interazione che sarà allettante per gli sviluppatori. Strumenti come la piattaforma no-code di AppMaster potrebbero fornire una base per l'integrazione di tali innovazioni nello sviluppo di applicazioni complete, offrendo soluzioni convincenti in grado di adattarsi perfettamente alle tendenze tecnologiche in evoluzione.