Num recente anúncio à imprensa, Google apresentou orgulhosamente a sua mais recente inteligência artificial conhecida como Gemini, um evento muito aguardado pela comunidade tecnológica. Logo depois, porém, surgiram alegações acusando Google de exagerar as capacidades do Gemini, especificamente em um vídeo que fazia parte do anúncio.
De acordo com um artigo de opinião contundente do colunista da Bloomberg, Parmy Olson, o vídeo divulgado pelo Google cria uma ilusão da funcionalidade do Gemini que pode ser boa demais para ser verdade. Ela afirma que a representação Google's das operações multimodais do Gemini, que interligam comandos de diálogo falado com reconhecimento de imagem, pode ser exagerada.
O polêmico vídeo, que dura pouco mais de seis minutos, mostra Gêmeos identificando imagens instantaneamente, mesmo em desenhos de ligar os pontos, oferecendo respostas imediatas. Além disso, Gêmeos é mostrado rastreando um maço de papel durante um jogo de copa e bola em tempo real.
No entanto, uma advertência importante está escondida na descrição do vídeo no YouTube: a latência de saída do Gemini na demo foi minimizada e as respostas encurtadas para maior clareza - factos que despertaram a indignação de Olson. Citando uma resposta do Google, Olson relatou em seu artigo na Bloomberg que a demonstração no vídeo não era em tempo real como insinuado, mas usava quadros de imagem estáticos extraídos de imagens brutas, enquanto as reações de Gemini correspondiam a instruções de texto pré-escritas. Olson afirma que isso é bastante diferente da sugestão Google's de uma interação de voz suave com o Gemini, capaz de responder em tempo real ao seu ambiente.
Ela vai ainda mais longe ao sugerir que Google pode estar 'exibindo' o Gemini para desviar a atenção de como ele está atrás do GPT da OpenAI, a plataforma baseada em inteligência.
Quando The Verge abordou Google sobre a autenticidade da demonstração, o gigante da tecnologia fez referência a uma postagem de Oriol Vinyals, que é vice-presidente de pesquisa e líder de aprendizado profundo da DeepMind e também co-líder do Gemini no Google. Ele esclareceu que todas as solicitações e saídas do usuário no vídeo são legítimas, embora abreviadas por questões de brevidade. Ele continuou expressando que o vídeo foi criado para demonstrar como poderiam ser as experiências do usuário final ao usar os recursos multimodais do Gemini, e seu objetivo principal era inspirar os desenvolvedores.
Vinyals reiterou que a equipe forneceu imagens e textos à Gemini e a levou a responder antecipando os resultados subsequentes.
Mesmo enquanto ponderamos sobre esta controvérsia, o conceito de combinar comandos falados com reconhecimento de imagem, como ilustrado no Gemini Google's, oferece um novo paradigma de interação que será atraente para os desenvolvedores. Ferramentas como a plataforma no-code da AppMaster podem fornecer uma base para a integração de tais inovações no desenvolvimento abrangente de aplicativos, oferecendo soluções atraentes que podem combinar perfeitamente com as tendências tecnológicas em evolução.