Dalam pengumuman media baru-baru ini, Google dengan bangga meluncurkan kecerdasan buatan terbarunya yang dikenal sebagai Gemini, sebuah peristiwa yang sangat dinantikan oleh komunitas teknologi. Namun, segera setelah itu, muncul klaim yang menuduh Google melebih-lebihkan kemampuan Gemini, khususnya dalam video tampilan yang merupakan bagian dari pengumuman tersebut.
Menurut opini pedas dari kolumnis Bloomberg Parmy Olson, video yang dirilis oleh Google menciptakan ilusi fungsi Gemini yang mungkin terlalu bagus untuk menjadi kenyataan. Dia berpendapat bahwa gambaran Google's tentang operasi multimoda Gemini, yang menghubungkan perintah dialog lisan dengan pengenalan gambar, bisa dilebih-lebihkan.
Video kontroversial tersebut, yang berdurasi lebih dari enam menit, memvisualisasikan Gemini yang mengidentifikasi gambar secara instan, bahkan dalam gambar yang menghubungkan titik-titik, sehingga menawarkan respons yang cepat. Selain itu, Gemini ditampilkan melacak gumpalan kertas selama pertandingan piala dan bola secara real-time.
Namun, ada peringatan penting yang tersembunyi dalam deskripsi video di YouTube: latensi keluaran Gemini dalam demo telah diminimalkan, dan tanggapannya dipersingkat untuk kejelasan - fakta yang memicu kemarahan Olson. Mengutip tanggapan dari Google, Olson melaporkan dalam tulisannya di Bloomberg bahwa demo dalam video tersebut tidak real-time seperti yang disindir, melainkan menggunakan bingkai gambar statis yang diambil dari rekaman mentah, sementara reaksi Gemini berhubungan dengan petunjuk teks yang telah ditulis sebelumnya. Olson menegaskan bahwa hal ini sangat berbeda dengan isyarat Google's tentang interaksi suara yang lancar dengan Gemini, yang mampu memberikan respons real-time terhadap lingkungannya.
Dia melangkah lebih jauh dengan menyatakan bahwa Google mungkin 'berpameran' dengan Gemini untuk mengalihkan perhatian dari ketertinggalannya di belakang GPT OpenAI, platform berbasis intelijen.
Ketika The Verge mendekati Google mengenai keaslian demo tersebut, raksasa teknologi tersebut merujuk pada postingan dari Oriol Vinyals, yang merupakan Wakil Presiden Riset dan Pembelajaran Mendalam DeepMind dan juga salah satu pimpinan Gemini di Google. Dia mengklarifikasi bahwa semua perintah dan keluaran pengguna dalam video tersebut adalah sah, meskipun disingkat agar singkatnya. Dia melanjutkan dengan menyatakan bahwa video tersebut dibuat untuk menunjukkan seperti apa pengalaman pengguna akhir ketika menggunakan fitur multimodal Gemini, dan tujuan utamanya adalah untuk menginspirasi pengembang.
Vinyals menegaskan kembali bahwa tim telah melengkapi Gemini dengan gambar dan teks dan mendorongnya untuk merespons dengan mengantisipasi keluaran berikutnya.
Bahkan ketika kita merenungkan kontroversi ini, konsep menggabungkan perintah lisan dengan pengenalan gambar, seperti yang diilustrasikan dalam Google's Gemini, menawarkan paradigma interaksi baru yang akan menarik bagi pengembang. Alat seperti platform no-code AppMaster mungkin memberikan landasan untuk mengintegrasikan inovasi tersebut ke dalam pengembangan aplikasi yang komprehensif, menawarkan solusi menarik yang dapat selaras dengan tren teknologi yang berkembang.