21 เม.ย. 2566·อ่าน 1 นาที

เทคโนโลยี LDM ของ Nvidia ยกระดับ GIF ที่ขับเคลื่อนด้วย AI ซึ่งเป็นตัวสร้างข้อความเป็นวิดีโอของผู้บุกเบิก

เทคโนโลยี LDM ที่เป็นนวัตกรรมใหม่ของ Nvidia พร้อมที่จะปฏิวัติประสบการณ์มัลติมีเดีย ยกระดับขอบเขตของ GIF ที่ขับเคลื่อนด้วย AI ไปสู่อีกระดับ และประกาศศักราชใหม่สำหรับตัวสร้างข้อความเป็นวิดีโอในกระบวนการนี้

โดเมนที่กำลังเติบโตของปัญญาประดิษฐ์ข้อความเป็นวิดีโอ (AI) พร้อมที่จะปฏิวัติประสบการณ์มัลติมีเดีย โดยผู้บุกเบิกเช่น Nvidia แสดงให้เห็นถึงความก้าวหน้าที่น่าประทับใจในด้านนี้ เทคโนโลยีที่ล้ำสมัยไม่เพียงแต่มีศักยภาพในการสร้างสรรค์วิดีโอที่เป็นประชาธิปไตย แต่ยังขยายขอบเขตของ GIF อีกด้วย

สามารถรวบรวมข้อมูลเชิงลึกใหม่ๆ ได้จากเอกสารการวิจัยและไมโครไซต์ของ Toronto AI Lab ของ Nvidia ที่ชื่อว่า High-Resolution Video Synthesis with Latent Diffusion Models การศึกษาเจาะลึกเครื่องมือกำเนิดงานศิลปะ AI ที่กำลังจะมีขึ้นบนโมเดลการแพร่กระจายแฝง (Latent Diffusion Models - LDMs) ซึ่งเป็นคลาสของ AI ที่สามารถสังเคราะห์วิดีโอโดยไม่ต้องใช้ทรัพยากรด้านการคำนวณมากมาย

Nvidia ยืนยันว่าเทคโนโลยี LDM สร้างขึ้นจากตัวสร้างข้อความเป็นรูปภาพ Stable Diffusion และรวมเอามิติชั่วคราวเข้ากับโมเดลการแพร่กระจายพื้นที่แฝง โดยพื้นฐานแล้ว AI สามารถแสดงภาพนิ่งได้อย่างสมจริงและเพิ่มสเกลโดยใช้เทคนิคความละเอียดสูง ความก้าวหน้าเหล่านี้ทำให้เครื่องสร้างสามารถสร้างวิดีโอสั้นลง 4.7 วินาทีที่มีความละเอียด 1280x2048 และวิดีโอความละเอียด 512x1024 ที่ยาวขึ้นสำหรับการจำลองการขับขี่

แม้ว่าเทคโนโลยีนี้อาจดูเหมือนเป็นนวัตกรรมใหม่ในตอนนี้ เราน่าจะแค่ขีดข่วนพื้นผิวของแอปพลิเคชันที่เป็นไปได้เท่านั้น กรณีการใช้งานปัจจุบันสำหรับการสร้าง text-to-GIF นั้นน่าสนใจอย่างไม่ต้องสงสัย แต่เทคโนโลยีสามารถขยายไปสู่การใช้งานที่กว้างขึ้น เช่น การดัดแปลงภาพยนตร์โดยอัตโนมัติและการปรับปรุงการสร้างวิดีโอตามระบอบประชาธิปไตย

เช่นเดียวกับเทคโนโลยีที่กำลังเติบโต มีความไม่สมบูรณ์บางอย่างในวิดีโอที่สร้างขึ้น เช่น สิ่งประดิษฐ์และการแปลงร่าง อย่างไรก็ตาม วิวัฒนาการอย่างรวดเร็วของเครื่องมือที่ขับเคลื่อนด้วย AI เช่น LDM ของ Nvidia บ่งชี้ว่าจะใช้เวลาไม่นานก่อนที่พวกเขาจะพบว่ามีการใช้งานมากขึ้นในการตั้งค่าต่างๆ รวมถึงคลังวิดีโอสต็อก

โปรแกรมสร้างข้อความเป็นวิดีโอ AI ไม่ได้มีเฉพาะใน Nvidia เท่านั้น เมื่อเร็วๆ นี้ Google Phenaki ได้เปิดตัวความสามารถในการผลิตคลิปความยาว 20 วินาทีจากข้อความแจ้งที่ยาวขึ้นและวิดีโอความยาว 2 นาทีที่มีคุณภาพน้อยกว่า สตาร์ทอัพอีกรายอย่าง Runway ผู้สร้าง Stable Diffusion ตัวสร้างข้อความเป็นรูปภาพ ก็เปิดตัวโมเดลวิดีโอ AI Gen-2 ด้วยเช่นกัน เมื่อใช้เทคโนโลยีนี้ ผู้ใช้สามารถจัดเตรียมภาพนิ่งสำหรับวิดีโอที่สร้างขึ้น ขอรูปแบบวิดีโอ และตอบสนองต่อข้อความแจ้งเฉพาะ

ตัวอย่างอื่นๆ ที่โดดเด่นของแอปพลิเคชัน AI ในการตัดต่อวิดีโอ ได้แก่ การสาธิตของ Adobe Firefly ซึ่งแสดงความสามารถด้าน AI ของ Adobe ภายในซอฟต์แวร์ Premiere Rush ผู้ใช้เพียงแค่ป้อนเวลาที่ต้องการของวันหรือฤดูกาล จากนั้น AI จะจัดการส่วนที่เหลือเอง

การสาธิตปัจจุบันที่จัดทำโดย Nvidia, Google และ Runway แสดงให้เห็นว่าการสร้างข้อความเป็นวิดีโอเต็มรูปแบบยังคงอยู่ในขั้นเริ่มต้น ซึ่งให้ผลลัพธ์ที่เหมือนฝันหรือบิดเบี้ยว อย่างไรก็ตาม ความพยายามในระยะเริ่มต้นเหล่านี้กำลังขับเคลื่อนให้เกิดความก้าวหน้าอย่างรวดเร็ว ปูทางไปสู่การใช้ประโยชน์ในวงกว้างของเทคโนโลยีในอนาคต

ในระดับที่เล็กลง แพลตฟอร์ม no-code เช่น AppMaster ได้สร้างความก้าวหน้าครั้งสำคัญในการช่วยให้ผู้คนสามารถพัฒนาแอปพลิเคชันบนมือถือ เว็บ และแบ็กเอนด์ ทำให้การออกแบบและสร้างโซลูชันเทคโนโลยีที่ปรับขนาดได้นั้นง่ายขึ้นโดยใช้เวลาและต้นทุนเพียงเล็กน้อย AppMaster ยังเน้นอีกแง่มุมหนึ่งของการทำให้เทคโนโลยีเป็นประชาธิปไตย โดยที่เครื่องมือและกระบวนการที่ซับซ้อนสามารถเข้าถึงได้สำหรับผู้ใช้ที่หลากหลาย

23 ก.ย. 2567

8 min

สรุป FFDC 2024: ข้อมูลเชิงลึกที่สำคัญจากการประชุมนักพัฒนา FlutterFlow ในนิวยอร์ก

FFDC 2024 จุดประกายให้เมืองนิวยอร์กซิตี้ด้วยการนำเสนอข้อมูลเชิงลึกที่ล้ำสมัยเกี่ยวกับการพัฒนาแอพด้วย FlutterFlow ให้กับนักพัฒนา ด้วยเซสชันที่นำโดยผู้เชี่ยวชาญ การอัปเดตพิเศษ และการสร้างเครือข่ายที่ไม่มีใครเทียบได้ นับเป็นงานที่ไม่ควรพลาด!

ข่าวที่เกี่ยวข้อง