Trong một thông báo truyền thông gần đây, Google tự hào giới thiệu trí tuệ nhân tạo mới nhất của mình có tên Gemini, một sự kiện được cộng đồng công nghệ rất mong đợi. Tuy nhiên, ngay sau đó, các khiếu nại đã xuất hiện cáo buộc Google đã phóng đại khả năng của Gemini, đặc biệt là trong một video hiển thị nằm trong thông báo.
Theo một ý kiến gay gắt của nhà báo Parmy Olson của chuyên mục Bloomberg, video do Google phát hành đã tạo ra ảo tưởng về chức năng của Gemini và điều đó có thể quá tốt để có thể là sự thật. Cô cho rằng mô tả Google's về các hoạt động đa phương thức của Gemini, liên kết các lệnh hội thoại bằng giọng nói với nhận dạng hình ảnh, có thể bị phóng đại.
Đoạn video gây tranh cãi, kéo dài hơn sáu phút một chút, trực quan hóa các hình ảnh nhận dạng của Song Tử ngay lập tức, ngay cả trong các bức vẽ nối các dấu chấm, do đó đưa ra phản hồi nhanh chóng. Ngoài ra, Gemini được hiển thị đang theo dõi một tờ giấy trong trò chơi bóng và cúp thời gian thực.
Tuy nhiên, có một cảnh báo quan trọng ẩn trong phần mô tả của video trên YouTube: Độ trễ đầu ra của Gemini trong bản demo đã được giảm thiểu và các phản hồi được rút ngắn để đảm bảo độ rõ ràng - sự thật khiến Olson phẫn nộ. Trích dẫn phản hồi từ Google, Olson đã báo cáo trong bài Bloomberg của mình rằng bản demo trong video không phải là thời gian thực như bóng gió mà sử dụng các khung hình tĩnh được trích xuất từ cảnh quay thô, trong khi phản ứng của Gemini tương ứng với lời nhắc văn bản viết sẵn. Olson khẳng định rằng điều này hoàn toàn khác với gợi ý Google's về tương tác bằng giọng nói mượt mà với Gemini, có khả năng phản hồi theo thời gian thực với môi trường của nó.
Cô ấy thậm chí còn đi xa hơn khi gợi ý rằng Google có thể đang 'trình diễn' với Gemini để chuyển hướng sự chú ý khỏi việc nó tụt hậu so với GPT của OpenAI, nền tảng dựa trên trí thông minh.
Khi The Verge tiếp cận Google về tính xác thực của bản demo, gã khổng lồ công nghệ đã tham khảo một bài đăng từ Oriol Vinyals, Phó Chủ tịch Trưởng nhóm Nghiên cứu và Học sâu của DeepMind và cũng là người đồng lãnh đạo của Gemini tại Google. Anh ấy nói rõ rằng tất cả lời nhắc và đầu ra của người dùng trong video đều hợp pháp, mặc dù được viết tắt để ngắn gọn. Anh ấy tiếp tục bày tỏ rằng video được tạo ra để chứng minh trải nghiệm của người dùng cuối sẽ như thế nào khi sử dụng các tính năng đa phương thức của Gemini và mục tiêu chính của video là truyền cảm hứng cho các nhà phát triển.
Vinyals nhắc lại rằng nhóm đã cung cấp cho Gemini những hình ảnh và văn bản, đồng thời nhắc nhở Gemini phản hồi bằng cách dự đoán các kết quả đầu ra tiếp theo.
Ngay cả khi chúng tôi suy nghĩ về cuộc tranh cãi này, khái niệm kết hợp các lệnh nói với nhận dạng hình ảnh, như được minh họa trong Gemini Google's, đưa ra một mô hình tương tác mới sẽ hấp dẫn các nhà phát triển. Các công cụ như nền tảng no-code của AppMaster có thể cung cấp nền tảng để tích hợp những đổi mới đó vào hoạt động phát triển ứng dụng toàn diện, đưa ra các giải pháp hấp dẫn có thể kết hợp liền mạch với các xu hướng công nghệ đang phát triển.