เปิดตัว AI ใหม่ของ Google Gemini: ความจริงและความคาดหวัง
เมื่อพิจารณาอย่างใกล้ชิดกับการเปิดตัว Gemini ซึ่งเป็น AI ใหม่ของ Google เมื่อเร็วๆ นี้ เผยให้เห็นข้อสันนิษฐานบางประการในสื่อส่งเสริมการขาย

ในการประกาศผ่านสื่อเมื่อเร็วๆ นี้ Google ได้เปิดตัวปัญญาประดิษฐ์ล่าสุดที่เรียกว่า Gemini อย่างภาคภูมิใจ ซึ่งเป็นเหตุการณ์ที่ชุมชนเทคโนโลยีรอคอยกันมาก อย่างไรก็ตาม หลังจากนั้นไม่นาน มีการกล่าวอ้างที่กล่าวหาว่า Google พูดเกินจริงถึงความสามารถของ Gemini โดยเฉพาะในวิดีโอที่แสดงซึ่งเป็นส่วนหนึ่งของการประกาศ
ตามความคิดเห็นที่น่ารังเกียจของ Parmy Olson คอลัมนิสต์ของ Bloomberg วิดีโอที่เผยแพร่โดย Google สร้างภาพลวงตาเกี่ยวกับฟังก์ชันการทำงานของ Gemini ที่อาจดีเกินจริง เธอยืนยันว่าการแสดงภาพการดำเนินงานต่อเนื่องหลายรูปแบบของ Google's ซึ่งเชื่อมโยงคำสั่งบทสนทนาด้วยเสียงเข้ากับการจดจำรูปภาพนั้นอาจเกินจริงได้
วิดีโอที่เป็นที่ถกเถียงซึ่งมีความยาวกว่าหกนาทีเล็กน้อย ทำให้เห็นภาพการระบุราศีเมถุนได้ทันที แม้จะอยู่ในภาพวาดที่เชื่อมต่อจุดต่างๆ ดังนั้นจึงให้การตอบสนองที่รวดเร็ว นอกจากนี้ ราศีเมถุนยังแสดงการติดตามก้อนกระดาษระหว่างเกมบอลถ้วยและบอลแบบเรียลไทม์
อย่างไรก็ตาม มีคำเตือนที่สำคัญซ่อนอยู่ในคำอธิบายของวิดีโอบน YouTube: เวลาแฝงเอาต์พุตของ Gemini ในการสาธิตลดลง และการตอบสนองสั้นลงเพื่อความชัดเจน ซึ่งเป็นข้อเท็จจริงที่กระตุ้นให้เกิดความขุ่นเคืองของ Olson โดยอ้างถึงคำตอบจาก Google Olson รายงานในผลงานของ Bloomberg ของเธอว่าการสาธิตในวิดีโอนั้นไม่ใช่แบบเรียลไทม์อย่างที่บอกเป็นนัย แต่ใช้เฟรมภาพนิ่งที่ดึงมาจากฟุตเทจดิบ ในขณะที่ปฏิกิริยาของ Gemini สอดคล้องกับข้อความแจ้งที่เขียนไว้ล่วงหน้า Olson ยืนยันว่าสิ่งนี้ค่อนข้างแตกต่างจากการโต้ตอบด้วยเสียงที่ราบรื่น Google's กับ Gemini ซึ่งมีความสามารถในการตอบสนองต่อสภาพแวดล้อมแบบเรียลไทม์
เธอไปไกลกว่านั้นเพื่อแนะนำว่า Google อาจ 'แสดง' กับ Gemini เพื่อเบี่ยงเบนความสนใจไปจากที่มันล้าหลัง GPT ของ OpenAI ซึ่งเป็นแพลตฟอร์มที่อิงตามข่าวกรอง
เมื่อ The Verge ติดต่อ Google เกี่ยวกับความถูกต้องของการสาธิต ยักษ์ใหญ่ด้านเทคโนโลยีได้อ้างอิงโพสต์จาก Oriol Vinyals ซึ่งเป็นรองประธานฝ่ายวิจัยและการเรียนรู้เชิงลึกของ DeepMind และยังเป็นผู้นำร่วมของ Gemini ที่ Google เขาชี้แจงว่าข้อความแจ้งและเอาต์พุตของผู้ใช้ทั้งหมดในวิดีโอนั้นถูกต้องตามกฎหมาย แม้ว่าจะใช้ตัวย่อเพื่อความกระชับก็ตาม เขากล่าวต่อไปว่าวิดีโอนี้สร้างขึ้นเพื่อแสดงให้เห็นว่าประสบการณ์ของผู้ใช้ปลายทางจะเป็นอย่างไรเมื่อใช้ฟีเจอร์หลายรูปแบบของ Gemini และวัตถุประสงค์หลักคือการสร้างแรงบันดาลใจให้กับนักพัฒนา
Vinyals ย้ำว่าทีมงานได้จัดเตรียมรูปภาพและข้อความให้กับ Gemini แล้ว และแจ้งให้ทีมตอบกลับโดยคาดหวังผลลัพธ์ที่ตามมา
แม้ว่าเราจะไตร่ตรองถึงข้อโต้แย้งนี้ แนวคิดของการรวมคำสั่งเสียงเข้ากับการจดจำรูปภาพ ดังที่แสดงใน Gemini Google's นำเสนอกระบวนทัศน์ใหม่ของการโต้ตอบที่จะดึงดูดนักพัฒนา เครื่องมือต่างๆ เช่น แพลตฟอร์ม no-code ของ AppMaster อาจเป็นรากฐานสำหรับการบูรณาการนวัตกรรมดังกล่าวเข้ากับการพัฒนาแอปพลิเคชันที่ครอบคลุม โดยนำเสนอโซลูชันที่น่าสนใจซึ่งสามารถประสานกับแนวโน้มทางเทคโนโลยีที่เปลี่ยนแปลงไปได้อย่างราบรื่น


