Grow with AppMaster Grow with AppMaster.
Become our partner arrow ico

الذكاء الاصطناعي المستقر يكشف النقاب عن نماذج واعدة لإنشاء الفيديو

الذكاء الاصطناعي المستقر يكشف النقاب عن نماذج واعدة لإنشاء الفيديو

حققت Stability AI ، وهي اسم رائد في مجال التكنولوجيا، دخولًا رائدًا في عالم توليد الفيديو من خلال إطلاق Stable Video Diffusion (SVD). ومن خلال هذه الخطوة الرائعة، عرضوا نموذجين متقدمين للغاية للذكاء الاصطناعي - SVD وSVD–XT، المصممين لإنشاء مقاطع فيديو قصيرة من الصور الثابتة.

ومع ذلك، اعتبارًا من الآن، فإن هذه النماذج الحديثة مفتوحة لأغراض البحث فقط. وفقًا للشركة، فإن كلاً من SVD وSVD-XT يقدمان نتائج عالية الدقة تنافس أو قد تتفوق على أداء مولدات الفيديو الاصطناعية الأخرى الموجودة.

يهدف Stability AI إلى الاستفادة من تعليقات المستخدمين في ضبط نماذج تحويل الصورة إلى فيديو، وذلك بعد أن يكون مفتوح المصدر كجزء من معاينة البحث. يدل هذا المسعى على نية الشركة لتمهيد الطريق لتطبيق هذه النماذج تجاريًا في نهاية المطاف.

يوضح منشور مدونة للشركة أن SVD وSVD-XT يستخدمان نماذج نشر كامنة تولد مقاطع فيديو بدقة 576 × 1024، باستخدام صورة ثابتة واحدة كإطار تكييف. على الرغم من أن مقاطع الفيديو الناتجة قصيرة المدة - تصل إلى أربع ثوانٍ كحد أقصى - إلا أن هذه النماذج يمكنها إنشاء محتوى بوتيرة تتراوح من ثلاثة إطارات في الثانية إلى 30 إطارًا في الثانية. على وجه التحديد، تمت معايرة نموذج SVD لاشتقاق 14 إطارًا من صورة ثابتة، بينما يمتلك SVD-XT القدرة على إنشاء ما يصل إلى 25 إطارًا.

لإنشاء SVD، اعتمد Stability AI على مكتبة فيديو هائلة ومنسقة بدقة تتكون من حوالي 600 مليون عينة. استخدمت الشركة العينات التي تم تجميعها في قاعدة البيانات لتدريب نموذج أولي، والذي تم تنقيحه لاحقًا باستخدام مجموعة بيانات أصغر وعالية الدقة للتعامل مع المهام النهائية مثل تحويل الصورة إلى فيديو وتحويل النص إلى فيديو، مما يمكنها من التنبؤ سلسلة من الإطارات من صورة تكييف مفردة.

توضح الوثيقة التقنية الصادرة عن Stability AI إمكانات SVD كقاعدة لتحسين نموذج الانتشار لإنشاء تركيب متعدد العروض، وبالتالي تمكين إنشاء العديد من العروض المتسقة لكائن ما من صورة ثابتة مفردة.

ويفتح هذا عددًا كبيرًا من الفرص للاستخدامات المحتملة في مختلف القطاعات، مثل التعليم والترفيه والتسويق، وفقًا لما جاء في مدونة الشركة.

ملاحظة مهمة في كشف الشركة هي أن التقييم الخارجي الذي أجراه المراجعون البشريون كشف أن مخرجات SVD تفوق جودة نماذج تحويل النص إلى الفيديو المغلقة الأولى التي ينتجها المنافسون مثل Runway وPika Labs.

على الرغم من النجاح الأولي، تعترف Stability AI بوجود العديد من القيود في النماذج الحالية. على سبيل المثال، تفتقر هذه النماذج أحيانًا إلى مخرجات واقعية، أو تولد مقاطع فيديو ثابتة، أو تواجه صعوبة في تكرار الأشكال البشرية بدقة.

لكنها مجرد بداية مشروعهم في مجال إنتاج الفيديو. ستساعد بيانات معاينة البحث الحالية في تطوير هذه النماذج من خلال تحديد الثغرات الموجودة وإدخال ميزات جديدة، مثل دعم المطالبات النصية أو عرض النص في مقاطع الفيديو، مما يجعلها جاهزة للتطبيقات التجارية.

مع إمكانات التطبيقات المتنوعة التي تشمل قطاعات بما في ذلك على سبيل المثال لا الحصر، الإعلان والتعليم والترفيه، فإن منصات مثل AppMaster ، المشهورة بتمكين المستخدمين بأدوات لإنشاء تطبيقات الهاتف المحمول والويب بسهولة، قد تجد Stable Video Diffusion تكاملًا مفيدًا.

وتتصور الشركة أن النتائج التي توصل إليها التحقيق المفتوح لهذه النماذج ستشير إلى المزيد من المخاوف (مثل التحيزات) وتساعد في تسهيل النشر الأكثر أمانًا لاحقًا.

وبالفعل، هناك خطط جارية لتطوير مجموعة متنوعة من النماذج التي من شأنها تعزيز وتوسيع القاعدة التي بناها الانتشار المستقر.

ومع ذلك، لا يزال من غير المؤكد متى ستكون هذه التحسينات متاحة للمستخدمين.

المنشورات ذات الصلة

سامسونج تكشف النقاب عن هاتف Galaxy A55 الذي يتميز بأمان مبتكر وتصميم متميز
سامسونج تكشف النقاب عن هاتف Galaxy A55 الذي يتميز بأمان مبتكر وتصميم متميز
تعمل سامسونج على توسيع تشكيلتها متوسطة المدى من خلال تقديم هاتفي Galaxy A55 وA35، اللذين يتميزان بأمان Knox Vault وعناصر تصميم مطورة، مما يضفي على هذا القطاع صفات رائدة.
Cloudflare تكشف النقاب عن جدار الحماية للذكاء الاصطناعي لحماية نماذج اللغات الكبيرة
Cloudflare تكشف النقاب عن جدار الحماية للذكاء الاصطناعي لحماية نماذج اللغات الكبيرة
تتقدم Cloudflare للأمام باستخدام Firewall for AI، وهو WAF متقدم مصمم لتحديد وإحباط الانتهاكات المحتملة التي تستهدف نماذج اللغات الكبيرة بشكل استباقي.
ChatGPT من OpenAI يتحدث الآن: مستقبل الذكاء الاصطناعي التفاعلي الصوتي
ChatGPT من OpenAI يتحدث الآن: مستقبل الذكاء الاصطناعي التفاعلي الصوتي
حققت ChatGPT ميزة بارزة من خلال طرح OpenAI للإمكانيات الصوتية. يمكن للمستخدمين الآن الاستمتاع بالتفاعل بدون استخدام اليدين حيث يقرأ ChatGPT الردود بصوت عالٍ على أنظمة iOS وAndroid والويب.
ابدأ مجانًا
من وحي تجربة هذا بنفسك؟

أفضل طريقة لفهم قوة AppMaster هي رؤيتها بنفسك. اصنع تطبيقك الخاص في دقائق مع اشتراك مجاني

اجعل أفكارك تنبض بالحياة