हाल ही में एक मीडिया घोषणा में, Google गर्व से अपनी नवीनतम कृत्रिम बुद्धिमत्ता, जिसे जेमिनी के नाम से जाना जाता है, का अनावरण किया, एक ऐसी घटना जिसका तकनीकी समुदाय में बहुत प्रत्याशित था। हालाँकि, इसके तुरंत बाद, दावे सामने आए जिसमें Google जेमिनी की क्षमताओं को बढ़ा-चढ़ाकर बताने का आरोप लगाया गया, विशेष रूप से एक प्रदर्शन वीडियो में जो घोषणा का हिस्सा था।
ब्लूमबर्ग के स्तंभकार पार्मी ओल्सन की तीखी राय के अनुसार, Google द्वारा जारी किया गया वीडियो जेमिनी की कार्यक्षमता का भ्रम पैदा करता है जो सच होने के लिए बहुत अच्छा हो सकता है। उनका तर्क है कि जेमिनी के मल्टीमॉडल ऑपरेशंस का Google's चित्रण, जो बोले गए संवाद आदेशों को छवि पहचान के साथ जोड़ता है, अतिशयोक्तिपूर्ण हो सकता है।
विवादास्पद वीडियो, जो छह मिनट से थोड़ा अधिक समय का है, जेमिनी को छवियों को तुरंत पहचानने की कल्पना करता है, यहां तक कि कनेक्ट-द-डॉट्स चित्रों में भी, इस प्रकार त्वरित प्रतिक्रिया देता है। इसके अतिरिक्त, जेमिनी को वास्तविक समय के कप और बॉल गेम के दौरान एक कागज़ की गड्डी पर नज़र रखते हुए दिखाया गया है।
हालाँकि, YouTube पर वीडियो के विवरण में एक महत्वपूर्ण चेतावनी छिपी हुई है: डेमो में जेमिनी की आउटपुट विलंबता को कम कर दिया गया था, और स्पष्टता के लिए प्रतिक्रियाओं को छोटा कर दिया गया था - ऐसे तथ्य जिन्होंने ओल्सन के आक्रोश को भड़काया। Google की प्रतिक्रिया का हवाला देते हुए, ओल्सन ने अपने ब्लूमबर्ग अंश में बताया कि वीडियो में डेमो वास्तविक समय का नहीं था, बल्कि कच्चे फुटेज से निकाले गए स्थिर छवि फ़्रेमों का उपयोग किया गया था, जबकि जेमिनी की प्रतिक्रियाएं पूर्व-लिखित पाठ संकेतों के अनुरूप थीं। ओल्सन का दावा है कि यह जेमिनी के साथ सहज आवाज में बातचीत की Google's सूचना से काफी अलग है, जो अपने वातावरण में वास्तविक समय पर प्रतिक्रिया करने में सक्षम है।
वह यह सुझाव देने के लिए और भी आगे जाती है कि Google जेमिनी के साथ 'शोबोटिंग' कर सकता है ताकि इस बात से ध्यान हटाया जा सके कि वह इंटेलिजेंस-आधारित प्लेटफ़ॉर्म OpenAI के GPT से कैसे पीछे है।
जब The Verge ने डेमो की प्रामाणिकता के बारे में Google से संपर्क किया, तो टेक दिग्गज ने ओरिओल विनाइल्स की एक पोस्ट का संदर्भ दिया, जो डीपमाइंड के रिसर्च और डीप लर्निंग लीड के उपाध्यक्ष हैं और Google में जेमिनी के सह-प्रमुख भी हैं। उन्होंने स्पष्ट किया कि वीडियो में उपयोगकर्ता के सभी संकेत और आउटपुट वैध हैं, हालांकि संक्षेप में संक्षिप्त हैं। उन्होंने आगे बताया कि वीडियो यह प्रदर्शित करने के लिए बनाया गया था कि जेमिनी की मल्टीमॉडल सुविधाओं का उपयोग करते समय अंतिम-उपयोगकर्ता अनुभव कैसा दिख सकता है, और इसका प्राथमिक उद्देश्य डेवलपर्स को प्रेरित करना था।
विन्याल्स ने दोहराया कि टीम ने जेमिनी को चित्र और पाठ उपलब्ध कराए थे और आगामी आउटपुट का अनुमान लगाकर उसे प्रतिक्रिया देने के लिए प्रेरित किया था।
यहां तक कि जब हम इस विवाद पर विचार करते हैं, तो बोले गए आदेशों को छवि पहचान के साथ संयोजित करने की अवधारणा, जैसा कि Google's जेमिनी में दर्शाया गया है, बातचीत का एक नया प्रतिमान पेश करती है जो डेवलपर्स के लिए आकर्षक होगी। AppMaster के no-code प्लेटफ़ॉर्म जैसे उपकरण ऐसे नवाचारों को व्यापक अनुप्रयोग विकास में एकीकृत करने के लिए आधार प्रदान कर सकते हैं, जो सम्मोहक समाधान पेश करते हैं जो उभरते तकनीकी रुझानों के साथ सहजता से जुड़ सकते हैं।