Grow with AppMaster Grow with AppMaster.
Become our partner arrow ico

AI ที่มีความเสถียรเปิดตัวโมเดลการสร้างวิดีโอที่น่าจับตามอง

AI ที่มีความเสถียรเปิดตัวโมเดลการสร้างวิดีโอที่น่าจับตามอง

Stability AI ซึ่งเป็นชื่อชั้นนำในด้านเทคโนโลยี ได้ก้าวเข้าสู่ขอบเขตการสร้างวิดีโออย่างก้าวล้ำด้วยการเปิดตัว Stable Video Diffusion (SVD) ด้วยการเคลื่อนไหวที่โดดเด่นนี้ พวกเขาได้จัดแสดงโมเดล AI ขั้นสูงสองโมเดล ได้แก่ SVD และ SVD–XT ซึ่งได้รับการออกแบบมาเพื่อสร้างคลิปวิดีโอสั้นจากภาพนิ่ง

อย่างไรก็ตาม ณ ขณะนี้ โมเดลที่ล้ำสมัยเหล่านี้เปิดให้ใช้เพื่อการวิจัยเท่านั้น จากข้อมูลของบริษัท ทั้ง SVD และ SVD–XT ต่างอนุมัติผลลัพธ์ที่มีความเที่ยงตรงสูงซึ่งเป็นคู่แข่งหรืออาจเหนือกว่าประสิทธิภาพของเครื่องกำเนิดวิดีโอเทียมอื่นๆ ที่ยังหลงเหลืออยู่

Stability AI มุ่งหวังที่จะได้รับประโยชน์จากความคิดเห็นของผู้ใช้ในการปรับแต่งโมเดลภาพเป็นวิดีโอเหล่านี้ โดยใช้โอเพ่นซอร์สเป็นส่วนหนึ่งของการแสดงตัวอย่างการวิจัย ความพยายามนี้แสดงถึงความตั้งใจของบริษัทที่จะปูทางไปสู่การนำโมเดลเหล่านี้ไปประยุกต์ใช้ในเชิงพาณิชย์ในที่สุด

โพสต์ในบล็อกของบริษัทให้รายละเอียดว่า SVD และ SVD-XT ใช้โมเดลการแพร่กระจายแฝงที่สร้างวิดีโอขนาด 576 x 1024 โดยใช้ภาพนิ่งเพียงภาพเดียวเป็นกรอบปรับสภาพ แม้ว่าวิดีโอเอาต์พุตจะมีระยะเวลาสั้น – สูงสุดที่สี่วินาที – โมเดลเหล่านี้สามารถสร้างเนื้อหาด้วยความเร็วตั้งแต่สามเฟรมต่อวินาทีถึง 30 เฟรมต่อวินาที โดยเฉพาะอย่างยิ่ง รุ่น SVD ได้รับการปรับเทียบเพื่อให้ได้ 14 เฟรมจากภาพนิ่ง ในขณะที่ SVD-XT มีความสามารถในการสร้างสูงสุด 25 เฟรม

ในการสร้าง SVD นั้น Stability AI อาศัยไลบรารีวิดีโอขนาดใหญ่ที่ได้รับการดูแลอย่างพิถีพิถัน ซึ่งประกอบด้วยตัวอย่างประมาณ 600 ล้านตัวอย่าง บริษัทใช้ตัวอย่างที่รวบรวมไว้ในฐานข้อมูลเพื่อฝึกโมเดลหลัก ซึ่งต่อมาได้รับการปรับปรุงโดยใช้ชุดข้อมูลที่เล็กกว่าและมีความละเอียดสูง เพื่อจัดการกับงานดาวน์สตรีม เช่น การแปลงรูปภาพเป็นวิดีโอ และการแปลงข้อความเป็นวิดีโอ ทำให้สามารถคาดการณ์ได้ ลำดับของเฟรมจากอิมเมจการปรับสภาพเอกพจน์

เอกสารไวท์เปเปอร์ที่เผยแพร่โดย Stability AI ชี้แจงถึงศักยภาพของ SVD ที่เป็นฐานในการปรับแต่งโมเดลการแพร่กระจายเพื่อสร้างการสังเคราะห์หลายมุมมอง ซึ่งช่วยให้สามารถสร้างมุมมองที่สอดคล้องกันหลายรายการของวัตถุจากภาพนิ่งเอกพจน์

สิ่งนี้เปิดโอกาสมากมายสำหรับการใช้งานที่มีศักยภาพในภาคส่วนต่างๆ เช่น การศึกษา ความบันเทิง และการตลาด ตามโพสต์ในบล็อกของบริษัท

หมายเหตุสำคัญในการเปิดเผยของบริษัทก็คือ การประเมินภายนอกที่ดำเนินการโดยผู้ตรวจสอบที่เป็นมนุษย์ เปิดเผยว่าผลงานของ SVD นั้นเหนือกว่าคุณภาพของโมเดลข้อความเป็นวิดีโอแบบปิดรอบปฐมทัศน์ที่ผลิตโดยคู่แข่ง เช่น Runway และ Pika Labs

แม้จะประสบความสำเร็จในช่วงแรก แต่ Stability AI ยอมรับว่ามีข้อจำกัดมากมายในรุ่นปัจจุบัน ตัวอย่างเช่น โมเดลเหล่านี้บางครั้งขาดเอาต์พุตที่เหมือนจริง สร้างวิดีโอ หรือประสบปัญหาในการจำลองร่างมนุษย์อย่างแม่นยำ

แต่มันเป็นเพียงจุดเริ่มต้นของการเสี่ยงโชคในการสร้างวิดีโอ ข้อมูลตัวอย่างการวิจัยในปัจจุบันจะช่วยพัฒนาโมเดลเหล่านี้โดยการระบุช่องว่างที่มีอยู่และแนะนำคุณสมบัติใหม่ๆ เช่น การรองรับข้อความแจ้งหรือการแสดงข้อความในวิดีโอ ทำให้พร้อมสำหรับการใช้งานเชิงพาณิชย์

ด้วยศักยภาพของแอปพลิเคชันที่หลากหลายซึ่งครอบคลุมภาคส่วนต่าง ๆ รวมถึงแต่ไม่จำกัดเพียงการโฆษณา การศึกษา และความบันเทิง แพลตฟอร์มอย่าง AppMaster ที่มีชื่อเสียงในด้านการเพิ่มศักยภาพให้กับผู้ใช้ด้วยเครื่องมือในการสร้างแอปพลิเคชันบนมือถือและเว็บได้อย่างง่ายดาย อาจพบว่า Stable Video Diffusion เป็นการบูรณาการที่มีประโยชน์

บริษัทคาดการณ์ว่าการค้นพบจากการสอบสวนอย่างเปิดเผยของโมเดลเหล่านี้จะบ่งบอกถึงข้อกังวลที่มากขึ้น (เช่น อคติ) และช่วยอำนวยความสะดวกในการใช้งานที่ปลอดภัยยิ่งขึ้นในภายหลัง

ขณะนี้มีแผนในการพัฒนาแบบจำลองต่างๆ ที่จะเสริมความแข็งแกร่งและขยายฐานที่สร้างโดยการแพร่กระจายที่เสถียร

อย่างไรก็ตาม ยังคงไม่แน่นอนว่าการปรับปรุงเหล่านี้จะพร้อมใช้งานสำหรับผู้ใช้เมื่อใด

กระทู้ที่เกี่ยวข้อง

Samsung เปิดตัว Galaxy A55 พร้อมนวัตกรรมความปลอดภัยและโครงสร้างระดับพรีเมียม
Samsung เปิดตัว Galaxy A55 พร้อมนวัตกรรมความปลอดภัยและโครงสร้างระดับพรีเมียม
Samsung ขยายกลุ่มผลิตภัณฑ์ระดับกลางด้วยการเปิดตัว Galaxy A55 และ A35 ที่มีการรักษาความปลอดภัยแบบ Knox Vault และองค์ประกอบการออกแบบที่ได้รับการอัปเกรด โดยผสมผสานกลุ่มนี้เข้ากับคุณสมบัติระดับเรือธง
Cloudflare เปิดตัวไฟร์วอลล์สำหรับ AI เพื่อปกป้องโมเดลภาษาขนาดใหญ่
Cloudflare เปิดตัวไฟร์วอลล์สำหรับ AI เพื่อปกป้องโมเดลภาษาขนาดใหญ่
Cloudflare ก้าวไปข้างหน้าด้วยไฟร์วอลล์สำหรับ AI ซึ่งเป็น WAF ขั้นสูงที่ออกแบบมาเพื่อระบุล่วงหน้าและป้องกันการละเมิดที่อาจเกิดขึ้นโดยกำหนดเป้าหมายไปที่โมเดลภาษาขนาดใหญ่
ChatGPT ของ OpenAI พูดถึง: อนาคตของ AI แบบโต้ตอบด้วยเสียง
ChatGPT ของ OpenAI พูดถึง: อนาคตของ AI แบบโต้ตอบด้วยเสียง
ChatGPT บรรลุฟีเจอร์หลักด้วย OpenAI ที่เปิดตัวความสามารถด้านเสียง ขณะนี้ผู้ใช้สามารถเพลิดเพลินกับการโต้ตอบแบบแฮนด์ฟรีได้เนื่องจาก ChatGPT อ่านออกเสียงคำตอบบน iOS, Android และเว็บ
เริ่มต้นฟรี
แรงบันดาลใจที่จะลองสิ่งนี้ด้วยตัวเอง?

วิธีที่ดีที่สุดที่จะเข้าใจถึงพลังของ AppMaster คือการได้เห็นมันด้วยตัวคุณเอง สร้างแอปพลิเคชันของคุณเองในไม่กี่นาทีด้วยการสมัครสมาชิกฟรี

นำความคิดของคุณมาสู่ชีวิต