حققت Stability AI ، وهي اسم رائد في مجال التكنولوجيا، دخولًا رائدًا في عالم توليد الفيديو من خلال إطلاق Stable Video Diffusion (SVD). ومن خلال هذه الخطوة الرائعة، عرضوا نموذجين متقدمين للغاية للذكاء الاصطناعي - SVD وSVD–XT، المصممين لإنشاء مقاطع فيديو قصيرة من الصور الثابتة.
ومع ذلك، اعتبارًا من الآن، فإن هذه النماذج الحديثة مفتوحة لأغراض البحث فقط. وفقًا للشركة، فإن كلاً من SVD وSVD-XT يقدمان نتائج عالية الدقة تنافس أو قد تتفوق على أداء مولدات الفيديو الاصطناعية الأخرى الموجودة.
يهدف Stability AI إلى الاستفادة من تعليقات المستخدمين في ضبط نماذج تحويل الصورة إلى فيديو، وذلك بعد أن يكون مفتوح المصدر كجزء من معاينة البحث. يدل هذا المسعى على نية الشركة لتمهيد الطريق لتطبيق هذه النماذج تجاريًا في نهاية المطاف.
يوضح منشور مدونة للشركة أن SVD وSVD-XT يستخدمان نماذج نشر كامنة تولد مقاطع فيديو بدقة 576 × 1024، باستخدام صورة ثابتة واحدة كإطار تكييف. على الرغم من أن مقاطع الفيديو الناتجة قصيرة المدة - تصل إلى أربع ثوانٍ كحد أقصى - إلا أن هذه النماذج يمكنها إنشاء محتوى بوتيرة تتراوح من ثلاثة إطارات في الثانية إلى 30 إطارًا في الثانية. على وجه التحديد، تمت معايرة نموذج SVD لاشتقاق 14 إطارًا من صورة ثابتة، بينما يمتلك SVD-XT القدرة على إنشاء ما يصل إلى 25 إطارًا.
لإنشاء SVD، اعتمد Stability AI على مكتبة فيديو هائلة ومنسقة بدقة تتكون من حوالي 600 مليون عينة. استخدمت الشركة العينات التي تم تجميعها في قاعدة البيانات لتدريب نموذج أولي، والذي تم تنقيحه لاحقًا باستخدام مجموعة بيانات أصغر وعالية الدقة للتعامل مع المهام النهائية مثل تحويل الصورة إلى فيديو وتحويل النص إلى فيديو، مما يمكنها من التنبؤ سلسلة من الإطارات من صورة تكييف مفردة.
توضح الوثيقة التقنية الصادرة عن Stability AI إمكانات SVD كقاعدة لتحسين نموذج الانتشار لإنشاء تركيب متعدد العروض، وبالتالي تمكين إنشاء العديد من العروض المتسقة لكائن ما من صورة ثابتة مفردة.
ويفتح هذا عددًا كبيرًا من الفرص للاستخدامات المحتملة في مختلف القطاعات، مثل التعليم والترفيه والتسويق، وفقًا لما جاء في مدونة الشركة.
ملاحظة مهمة في كشف الشركة هي أن التقييم الخارجي الذي أجراه المراجعون البشريون كشف أن مخرجات SVD تفوق جودة نماذج تحويل النص إلى الفيديو المغلقة الأولى التي ينتجها المنافسون مثل Runway وPika Labs.
على الرغم من النجاح الأولي، تعترف Stability AI بوجود العديد من القيود في النماذج الحالية. على سبيل المثال، تفتقر هذه النماذج أحيانًا إلى مخرجات واقعية، أو تولد مقاطع فيديو ثابتة، أو تواجه صعوبة في تكرار الأشكال البشرية بدقة.
لكنها مجرد بداية مشروعهم في مجال إنتاج الفيديو. ستساعد بيانات معاينة البحث الحالية في تطوير هذه النماذج من خلال تحديد الثغرات الموجودة وإدخال ميزات جديدة، مثل دعم المطالبات النصية أو عرض النص في مقاطع الفيديو، مما يجعلها جاهزة للتطبيقات التجارية.
مع إمكانات التطبيقات المتنوعة التي تشمل قطاعات بما في ذلك على سبيل المثال لا الحصر، الإعلان والتعليم والترفيه، فإن منصات مثل AppMaster ، المشهورة بتمكين المستخدمين بأدوات لإنشاء تطبيقات الهاتف المحمول والويب بسهولة، قد تجد Stable Video Diffusion تكاملًا مفيدًا.
وتتصور الشركة أن النتائج التي توصل إليها التحقيق المفتوح لهذه النماذج ستشير إلى المزيد من المخاوف (مثل التحيزات) وتساعد في تسهيل النشر الأكثر أمانًا لاحقًا.
وبالفعل، هناك خطط جارية لتطوير مجموعة متنوعة من النماذج التي من شأنها تعزيز وتوسيع القاعدة التي بناها الانتشار المستقر.
ومع ذلك، لا يزال من غير المؤكد متى ستكون هذه التحسينات متاحة للمستخدمين.