Yakın zamanda yapılan bir medya duyurusunda Google, teknoloji camiasında merakla beklenen bir etkinlik olan Gemini olarak bilinen en yeni yapay zekasını gururla tanıttı. Ancak kısa bir süre sonra, özellikle duyurunun bir parçası olan bir videoda Google Gemini'nin yeteneklerini abartmakla suçlayan iddialar ortaya çıktı.
Bloomberg köşe yazarı Parmy Olson'un sert görüş yazısına göre, Google tarafından yayınlanan video, Gemini'nin işlevselliği konusunda gerçek olamayacak kadar iyi olabilecek bir yanılsama yaratıyor. Google's Gemini'nin sözlü diyalog komutlarını görüntü tanımayla birbirine bağlayan çok modlu operasyonlarına ilişkin tasvirinin abartılı olabileceğini iddia ediyor.
Altı dakikadan biraz fazla süren tartışmalı video, Gemini'nin noktaları birleştirme çizimlerinde bile görüntüleri anında tanımladığını ve böylece hızlı yanıtlar sunduğunu görselleştiriyor. Ek olarak Gemini, gerçek zamanlı bir kupa ve top oyunu sırasında bir kağıt tomarını takip ederken gösteriliyor.
Ancak videonun YouTube'daki açıklamasında önemli bir uyarı gizli: Gemini'nin demodaki çıkış gecikmesi en aza indirildi ve yanıtlar netlik sağlamak için kısaltıldı - bu, Olson'un öfkesini harekete geçiren gerçekler. Google gelen bir yanıta atıfta bulunan Olson, Bloomberg yazısında videodaki demonun ima edildiği gibi gerçek zamanlı olmadığını, bunun yerine ham görüntülerden çıkarılan statik görüntü çerçevelerini kullandığını, Gemini'nin tepkilerinin ise önceden yazılmış metin istemlerine karşılık geldiğini bildirdi. Olson, bunun Google's çevreye gerçek zamanlı tepkiler verebilen Gemini ile sorunsuz bir sesli etkileşim kuracağı yönündeki öngörüsünden oldukça farklı olduğunu ileri sürüyor.
Daha da ileri giderek, Google Gemini ile 'gösteri' yaparak dikkatleri, istihbarat temelli platform olan OpenAI'nin GPT'sinin gerisinde kaldığından uzaklaştırdığını öne sürüyor.
The Verge demonun orijinalliği konusunda Google başvurduğunda teknoloji devi, DeepMind'ın Araştırma ve Derin Öğrenmeden Sorumlu Başkan Yardımcısı ve aynı zamanda Google Gemini'nin eş lideri olan Oriol Vinyals'ın bir gönderisine atıfta bulundu. Kısa olması açısından kısaltılmış olsa da, videodaki tüm kullanıcı istemlerinin ve çıktılarının meşru olduğunu açıkladı. Videonun, Gemini'nin multimodal özelliklerini kullanırken son kullanıcı deneyimlerinin nasıl olabileceğini göstermek amacıyla oluşturulduğunu ve asıl amacının geliştiricilere ilham vermek olduğunu ifade etti.
Vinyals, ekibin Gemini'ye görseller ve metinler sağladığını yineledi ve ekibin gelecek çıktıları tahmin ederek yanıt vermesini teşvik etti.
Bu tartışma üzerinde düşünürken bile, Google's Gemini'sinde gösterildiği gibi sesli komutları görüntü tanımayla birleştirme kavramı, geliştiricilere cazip gelecek yeni bir etkileşim paradigması sunuyor. AppMaster no-code platformu gibi araçlar, bu tür yenilikleri kapsamlı uygulama geliştirmeye entegre etmek için bir temel sağlayabilir ve gelişen teknolojik trendlerle kusursuz bir şekilde uyum sağlayabilecek ilgi çekici çözümler sunabilir.