24 พ.ย. 2566·อ่าน 1 นาที

AI ที่มีความเสถียรเปิดตัวโมเดลการสร้างวิดีโอที่น่าจับตามอง

AI ความเสถียรก้าวกระโดดเข้าสู่โดเมนการสร้างวิดีโอด้วยการเปิดตัวโมเดล Stable Video Diffusion

Stability AI ซึ่งเป็นชื่อชั้นนำในด้านเทคโนโลยี ได้ก้าวเข้าสู่ขอบเขตการสร้างวิดีโออย่างก้าวล้ำด้วยการเปิดตัว Stable Video Diffusion (SVD) ด้วยการเคลื่อนไหวที่โดดเด่นนี้ พวกเขาได้จัดแสดงโมเดล AI ขั้นสูงสองโมเดล ได้แก่ SVD และ SVD–XT ซึ่งได้รับการออกแบบมาเพื่อสร้างคลิปวิดีโอสั้นจากภาพนิ่ง

อย่างไรก็ตาม ณ ขณะนี้ โมเดลที่ล้ำสมัยเหล่านี้เปิดให้ใช้เพื่อการวิจัยเท่านั้น จากข้อมูลของบริษัท ทั้ง SVD และ SVD–XT ต่างอนุมัติผลลัพธ์ที่มีความเที่ยงตรงสูงซึ่งเป็นคู่แข่งหรืออาจเหนือกว่าประสิทธิภาพของเครื่องกำเนิดวิดีโอเทียมอื่นๆ ที่ยังหลงเหลืออยู่

Stability AI มุ่งหวังที่จะได้รับประโยชน์จากความคิดเห็นของผู้ใช้ในการปรับแต่งโมเดลภาพเป็นวิดีโอเหล่านี้ โดยใช้โอเพ่นซอร์สเป็นส่วนหนึ่งของการแสดงตัวอย่างการวิจัย ความพยายามนี้แสดงถึงความตั้งใจของบริษัทที่จะปูทางไปสู่การนำโมเดลเหล่านี้ไปประยุกต์ใช้ในเชิงพาณิชย์ในที่สุด

โพสต์ในบล็อกของบริษัทให้รายละเอียดว่า SVD และ SVD-XT ใช้โมเดลการแพร่กระจายแฝงที่สร้างวิดีโอขนาด 576 x 1024 โดยใช้ภาพนิ่งเพียงภาพเดียวเป็นกรอบปรับสภาพ แม้ว่าวิดีโอเอาต์พุตจะมีระยะเวลาสั้น – สูงสุดที่สี่วินาที – โมเดลเหล่านี้สามารถสร้างเนื้อหาด้วยความเร็วตั้งแต่สามเฟรมต่อวินาทีถึง 30 เฟรมต่อวินาที โดยเฉพาะอย่างยิ่ง รุ่น SVD ได้รับการปรับเทียบเพื่อให้ได้ 14 เฟรมจากภาพนิ่ง ในขณะที่ SVD-XT มีความสามารถในการสร้างสูงสุด 25 เฟรม

ในการสร้าง SVD นั้น Stability AI อาศัยไลบรารีวิดีโอขนาดใหญ่ที่ได้รับการดูแลอย่างพิถีพิถัน ซึ่งประกอบด้วยตัวอย่างประมาณ 600 ล้านตัวอย่าง บริษัทใช้ตัวอย่างที่รวบรวมไว้ในฐานข้อมูลเพื่อฝึกโมเดลหลัก ซึ่งต่อมาได้รับการปรับปรุงโดยใช้ชุดข้อมูลที่เล็กกว่าและมีความละเอียดสูง เพื่อจัดการกับงานดาวน์สตรีม เช่น การแปลงรูปภาพเป็นวิดีโอ และการแปลงข้อความเป็นวิดีโอ ทำให้สามารถคาดการณ์ได้ ลำดับของเฟรมจากอิมเมจการปรับสภาพเอกพจน์

เอกสารไวท์เปเปอร์ที่เผยแพร่โดย Stability AI ชี้แจงถึงศักยภาพของ SVD ที่เป็นฐานในการปรับแต่งโมเดลการแพร่กระจายเพื่อสร้างการสังเคราะห์หลายมุมมอง ซึ่งช่วยให้สามารถสร้างมุมมองที่สอดคล้องกันหลายรายการของวัตถุจากภาพนิ่งเอกพจน์

สิ่งนี้เปิดโอกาสมากมายสำหรับการใช้งานที่มีศักยภาพในภาคส่วนต่างๆ เช่น การศึกษา ความบันเทิง และการตลาด ตามโพสต์ในบล็อกของบริษัท

หมายเหตุสำคัญในการเปิดเผยของบริษัทก็คือ การประเมินภายนอกที่ดำเนินการโดยผู้ตรวจสอบที่เป็นมนุษย์ เปิดเผยว่าผลงานของ SVD นั้นเหนือกว่าคุณภาพของโมเดลข้อความเป็นวิดีโอแบบปิดรอบปฐมทัศน์ที่ผลิตโดยคู่แข่ง เช่น Runway และ Pika Labs

แม้จะประสบความสำเร็จในช่วงแรก แต่ Stability AI ยอมรับว่ามีข้อจำกัดมากมายในรุ่นปัจจุบัน ตัวอย่างเช่น โมเดลเหล่านี้บางครั้งขาดเอาต์พุตที่เหมือนจริง สร้างวิดีโอ หรือประสบปัญหาในการจำลองร่างมนุษย์อย่างแม่นยำ

แต่มันเป็นเพียงจุดเริ่มต้นของการเสี่ยงโชคในการสร้างวิดีโอ ข้อมูลตัวอย่างการวิจัยในปัจจุบันจะช่วยพัฒนาโมเดลเหล่านี้โดยการระบุช่องว่างที่มีอยู่และแนะนำคุณสมบัติใหม่ๆ เช่น การรองรับข้อความแจ้งหรือการแสดงข้อความในวิดีโอ ทำให้พร้อมสำหรับการใช้งานเชิงพาณิชย์

ด้วยศักยภาพของแอปพลิเคชันที่หลากหลายซึ่งครอบคลุมภาคส่วนต่าง ๆ รวมถึงแต่ไม่จำกัดเพียงการโฆษณา การศึกษา และความบันเทิง แพลตฟอร์มอย่าง AppMaster ที่มีชื่อเสียงในด้านการเพิ่มศักยภาพให้กับผู้ใช้ด้วยเครื่องมือในการสร้างแอปพลิเคชันบนมือถือและเว็บได้อย่างง่ายดาย อาจพบว่า Stable Video Diffusion เป็นการบูรณาการที่มีประโยชน์

บริษัทคาดการณ์ว่าการค้นพบจากการสอบสวนอย่างเปิดเผยของโมเดลเหล่านี้จะบ่งบอกถึงข้อกังวลที่มากขึ้น (เช่น อคติ) และช่วยอำนวยความสะดวกในการใช้งานที่ปลอดภัยยิ่งขึ้นในภายหลัง

ขณะนี้มีแผนในการพัฒนาแบบจำลองต่างๆ ที่จะเสริมความแข็งแกร่งและขยายฐานที่สร้างโดยการแพร่กระจายที่เสถียร

อย่างไรก็ตาม ยังคงไม่แน่นอนว่าการปรับปรุงเหล่านี้จะพร้อมใช้งานสำหรับผู้ใช้เมื่อใด

23 ก.ย. 2567

6 min

สรุป FFDC 2024: ข้อมูลเชิงลึกที่สำคัญจากการประชุมนักพัฒนา FlutterFlow ในนิวยอร์ก

FFDC 2024 จุดประกายให้เมืองนิวยอร์กซิตี้ด้วยการนำเสนอข้อมูลเชิงลึกที่ล้ำสมัยเกี่ยวกับการพัฒนาแอพด้วย FlutterFlow ให้กับนักพัฒนา ด้วยเซสชันที่นำโดยผู้เชี่ยวชาญ การอัปเดตพิเศษ และการสร้างเครือข่ายที่ไม่มีใครเทียบได้ นับเป็นงานที่ไม่ควรพลาด!

ข่าวที่เกี่ยวข้อง