In einer aktuellen Medienankündigung stellte Google stolz seine neueste künstliche Intelligenz namens Gemini vor, ein Ereignis, das in der Tech-Community mit großer Spannung erwartet wurde. Bald darauf tauchten jedoch Behauptungen auf, in denen Google beschuldigt wurde, die Fähigkeiten von Gemini überbewertet zu haben, insbesondere in einem Display-Video, das Teil der Ankündigung war.
Laut einem vernichtenden Meinungsbeitrag des Bloomberg-Kolumnisten Parmy Olson erzeugt das von Google veröffentlichte Video eine Illusion der Funktionalität von Gemini, die möglicherweise zu schön ist, um wahr zu sein. Sie behauptet, dass Google's Darstellung der multimodalen Operationen von Gemini, die gesprochene Dialogbefehle mit Bilderkennung verknüpfen, übertrieben sein könnte.
Das kontroverse Video, das etwas mehr als sechs Minuten dauert, zeigt Zwillinge, wie sie Bilder sofort identifizieren, sogar in Punkt-zu-Punkt-Zeichnungen, und bietet so schnelle Antworten. Darüber hinaus wird gezeigt, wie Gemini während eines Pokal- und Ballspiels in Echtzeit einem Papierbündel folgt.
Allerdings verbirgt sich in der Beschreibung des Videos auf YouTube ein wichtiger Vorbehalt: Die Ausgabelatenz von Gemini in der Demo wurde minimiert und die Antworten aus Gründen der Klarheit gekürzt – Tatsachen, die Olsons Empörung erregten. Unter Berufung auf eine Antwort von Google berichtete Olson in ihrem Bloomberg-Beitrag, dass die Demo im Video nicht wie angedeutet in Echtzeit ablief, sondern vielmehr aus Rohmaterial extrahierte statische Bildrahmen verwendete, während Geminis Reaktionen vorab geschriebenen Textaufforderungen entsprachen. Olson behauptet, dass dies völlig im Widerspruch zu Google's Andeutung einer reibungslosen Sprachinteraktion mit Gemini steht, die in der Lage ist, in Echtzeit auf ihre Umgebung zu reagieren.
Sie geht sogar noch weiter und deutet an, dass Google mit Gemini möglicherweise eine „Showbootfahrt“ macht, um die Aufmerksamkeit davon abzulenken, dass das Unternehmen hinter OpenAIs GPT, der auf Intelligenz basierenden Plattform, zurückbleibt.
Als The Verge sich bezüglich der Authentizität der Demo an Google wandte, verwies der Technologieriese auf einen Beitrag von Oriol Vinyals, dem Vizepräsidenten für Forschung und Deep Learning bei DeepMind und außerdem Co-Leiter für Gemini bei Google. Er stellte klar, dass alle Benutzeraufforderungen und -ausgaben im Video legitim sind, wenn auch der Kürze halber gekürzt. Er führte weiter aus, dass das Video erstellt wurde, um zu demonstrieren, wie die Erfahrungen der Endbenutzer aussehen könnten, wenn sie die multimodalen Funktionen von Gemini nutzen, und dass sein Hauptziel darin bestehe, Entwickler zu inspirieren.
Vinyals bekräftigte, dass das Team Gemini mit Bildern und Texten versorgt und es zu einer Reaktion veranlasst habe, indem es die daraus resultierenden Ergebnisse vorwegnahm.
Auch wenn wir über diese Kontroverse nachdenken, bietet das Konzept der Kombination gesprochener Befehle mit Bilderkennung, wie es in Google's Gemini veranschaulicht wird, ein neues Paradigma der Interaktion, das für Entwickler verlockend sein wird. Tools wie die no-code Plattform von AppMaster könnten eine Grundlage für die Integration solcher Innovationen in die umfassende Anwendungsentwicklung bieten und überzeugende Lösungen bieten, die sich nahtlos in die sich entwickelnden Technologietrends integrieren lassen.