في إعلان إعلامي حديث، كشفت Google بكل فخر عن أحدث تقنيات الذكاء الاصطناعي المعروفة باسم جيميني، وهو الحدث الذي كان متوقعًا كثيرًا في مجتمع التكنولوجيا. ومع ذلك، بعد فترة وجيزة، ظهرت ادعاءات تتهم Google بالمبالغة في تقدير قدرات Gemini، وتحديدًا في مقطع فيديو معروض كان جزءًا من الإعلان.
وفقًا لمقال رأي لاذع بقلم بارمي أولسون، كاتب العمود في بلومبرج، فإن الفيديو الذي نشرته Google يخلق وهمًا لوظائف الجوزاء والذي قد يكون جيدًا جدًا لدرجة يصعب تصديقها. وتؤكد أن تصوير Google's لعمليات الجوزاء المتعددة الوسائط، والتي تربط أوامر الحوار المنطوقة مع التعرف على الصور، يمكن أن يكون مبالغًا فيه.
يُظهر الفيديو المثير للجدل، والذي يمتد لأكثر من ست دقائق بقليل، صورًا لجوزاء وهو يتعرف على الفور، حتى في رسومات توصيل النقاط، وبالتالي يقدم استجابات سريعة. بالإضافة إلى ذلك، يظهر برج الجوزاء وهو يتتبع قطعة ورق أثناء مباراة الكأس والكرة في الوقت الفعلي.
ومع ذلك، هناك تحذير مهم مخفي في وصف الفيديو على موقع YouTube: تم تقليل زمن الوصول لإخراج Gemini في العرض التوضيحي، وتم اختصار الردود من أجل الوضوح - وهي الحقائق التي أثارت سخط أولسون. نقلاً عن رد من Google ، ذكرت أولسون في مقالتها بلومبرج أن العرض التوضيحي في الفيديو لم يكن في الوقت الفعلي كما تم التلميح إليه، ولكنه استخدم بدلاً من ذلك إطارات صور ثابتة مستخرجة من لقطات أولية، بينما تتوافق ردود فعل جيميني مع المطالبات النصية المكتوبة مسبقًا. يؤكد أولسون أن هذا يختلف تمامًا عن تلميح Google's للتفاعل الصوتي السلس مع برج الجوزاء، القادر على الاستجابة لبيئته في الوقت الفعلي.
وتذهب إلى أبعد من ذلك لتقترح أن Google ربما تكون "استعراضية" مع Gemini لتحويل الانتباه عن كيفية تخلفها عن OpenAI's GPT، النظام الأساسي القائم على الذكاء.
عندما اتصل موقع The Verge Google بخصوص صحة العرض التوضيحي، أشار عملاق التكنولوجيا إلى منشور من Oriol Vinyals، وهو نائب رئيس DeepMind للأبحاث ورئيس التعلم العميق والقائد المشارك لـ Gemini في Google. وأوضح أن جميع مطالبات المستخدم ومخرجاته في الفيديو مشروعة، على الرغم من اختصارها للإيجاز. ومضى يقول إن الفيديو تم إنشاؤه لتوضيح الشكل الذي يمكن أن تبدو عليه تجارب المستخدم النهائي عند استخدام ميزات الوسائط المتعددة لـ Gemini، وكان هدفه الأساسي هو إلهام المطورين.
وأكد فينيالس أن الفريق قد زود برج الجوزاء بالصور والنصوص ودفعه إلى الاستجابة من خلال توقع المخرجات اللاحقة.
حتى ونحن نتأمل هذا الجدل، فإن مفهوم الجمع بين الأوامر المنطوقة والتعرف على الصور، كما هو موضح في برنامج Gemini Google's ، يقدم نموذجًا جديدًا للتفاعل من شأنه أن يجذب المطورين. قد توفر أدوات مثل منصة AppMaster no-code أساسًا لدمج مثل هذه الابتكارات في التطوير الشامل للتطبيقات، مما يوفر حلولاً مقنعة يمكن أن تتوافق بسلاسة مع الاتجاهات التكنولوجية المتطورة.