最近のメディア発表で、 Google Gemini として知られる最新の人工知能を誇らしげに発表しました。これはテクノロジー コミュニティで待望されていた出来事です。しかしその後すぐに、特に発表の一部であるディスプレイビデオにおいて、 Google Gemini の機能を誇張しているとの主張が浮上した。
ブルームバーグのコラムニスト、パーミー・オルソンによる痛烈な意見記事によると、 Googleが公開したビデオはジェミニの機能についての幻想を生み出しており、真実とは思えないかもしれない。彼女は、音声対話コマンドと画像認識を結び付けるジェミニのマルチモーダルなオペレーションについてのGoogle's描写は誇張されている可能性があると主張している。
物議を醸しているこのビデオは 6 分強に及び、ジェミニが点つなぎ図であっても瞬時に画像を識別する様子を視覚化しており、迅速な対応を可能にしています。さらに、ジェミニは、リアルタイムのカップ アンド ボール ゲーム中に紙束を追跡しているところも示されています。
ただし、YouTube のビデオの説明には重要な警告が隠されています。デモでの Gemini の出力遅延は最小限に抑えられており、明確にするために応答は短縮されていました。この事実がオルソン氏の憤りを引き起こしました。 Googleからの回答を引用して、オルソン氏はブルームバーグの記事で、ビデオ内のデモはほのめかされているようにリアルタイムではなく、むしろ生の映像から抽出された静的な画像フレームを使用していたのに対し、ジェミニの反応は事前に作成されたテキストプロンプトに対応していたと報告しました。オルソン氏は、これは、環境にリアルタイムで応答できるジェミニとのスムーズな音声対話についてのGoogle'sほのめかしとはまったく異なるものであると主張する。
同氏はさらに踏み込んで、 GoogleインテリジェンスベースのプラットフォームであるOpenAIのGPTに比べて遅れていることから注意をそらすために、Geminiと「ショーボート」している可能性があると示唆した。
The Vergeがデモの信頼性に関してGoogleに問い合わせたとき、テクノロジー大手は、DeepMind のリサーチおよび深層学習リード担当副社長であり、 Googleの Gemini の共同リードでもある Oriol Vinyals の投稿に言及しました。同氏は、簡潔にするために省略されているものの、ビデオ内のすべてのユーザー プロンプトと出力は正当なものであることを明確にしました。同氏は続けて、このビデオは Gemini のマルチモーダル機能を使用したときにエンドユーザー エクスペリエンスがどのようなものになるかをデモンストレーションするために作成されたものであり、その主な目的は開発者にインスピレーションを与えることであると述べました。
ヴィニャルス氏は、チームがジェミニに画像とテキストを提供し、その後の出力を予測することでジェミニに対応するよう促したと繰り返した。
私たちがこの論争について熟考している間でも、 Google's Gemini に示されているように、音声コマンドと画像認識を組み合わせるという概念は、開発者にとって魅力的なインタラクションの新しいパラダイムを提供します。 AppMasterのno-codeプラットフォームのようなツールは、そのようなイノベーションを包括的なアプリケーション開発に統合するための基盤を提供し、進化する技術トレンドにシームレスに対応できる魅力的なソリューションを提供する可能性があります。