Stability AI, तकनीकी क्षेत्र में एक अग्रणी नाम है, जिसने अपने स्टेबल वीडियो डिफ्यूजन (एसवीडी) के लॉन्च के साथ वीडियो जेनरेशन क्षेत्र में अपनी अभूतपूर्व प्रविष्टि की है। इस उल्लेखनीय कदम के साथ, उन्होंने दो अत्यधिक उन्नत एआई मॉडल - एसवीडी और एसवीडी-एक्सटी का प्रदर्शन किया है, जो स्थिर छवियों से लघु वीडियो क्लिप उत्पन्न करने के लिए डिज़ाइन किए गए हैं।
हालाँकि, अभी तक, ये अत्याधुनिक मॉडल केवल अनुसंधान उद्देश्यों के लिए खुले हैं। कंपनी के अनुसार, एसवीडी और एसवीडी-एक्सटी दोनों उच्च-निष्ठा वाले परिणामों को मंजूरी देते हैं जो अन्य मौजूदा कृत्रिम वीडियो जनरेटर के प्रदर्शन को प्रतिद्वंद्वी या संभावित रूप से मात देते हैं।
Stability AI लक्ष्य इन छवि-से-वीडियो मॉडलों को शोध पूर्वावलोकन के हिस्से के रूप में ओपन-सोर्स करके ठीक-ठीक करने में उपयोगकर्ता की प्रतिक्रिया से लाभ उठाना है। यह प्रयास अंततः इन मॉडलों को व्यावसायिक रूप से लागू करने का मार्ग प्रशस्त करने की कंपनी की मंशा को दर्शाता है।
एक कंपनी ब्लॉग पोस्ट में विस्तार से बताया गया है कि एसवीडी और एसवीडी-एक्सटी अव्यक्त प्रसार मॉडल का उपयोग करते हैं जो कंडीशनिंग फ्रेम के रूप में एकल स्थिर छवि का उपयोग करके 576 x 1024 वीडियो उत्पन्न करते हैं। भले ही आउटपुट वीडियो की अवधि संक्षिप्त हो - अधिकतम चार सेकंड - ये मॉडल तीन फ्रेम प्रति सेकंड से लेकर 30 फ्रेम प्रति सेकंड की गति से सामग्री उत्पन्न कर सकते हैं। विशेष रूप से, एसवीडी मॉडल को स्थिर छवि से 14 फ्रेम प्राप्त करने के लिए कैलिब्रेट किया गया है, जबकि एसवीडी-एक्सटी में 25 फ्रेम तक उत्पन्न करने की क्षमता है।
एसवीडी बनाने के लिए, Stability AI लगभग 600 मिलियन नमूनों से युक्त एक विशाल, सावधानीपूर्वक क्यूरेटेड वीडियो लाइब्रेरी पर भरोसा किया। कंपनी ने प्राथमिक मॉडल को प्रशिक्षित करने के लिए डेटाबेस में संकलित नमूनों का उपयोग किया, जिसे बाद में इमेज-टू-वीडियो और टेक्स्ट-टू-वीडियो रूपांतरण जैसे डाउनस्ट्रीम कार्यों को संभालने के लिए एक छोटे, हाई-डेफ़ डेटासेट का उपयोग करके परिष्कृत किया गया, जिससे यह भविष्यवाणी करने में सक्षम हो गया। एक एकल कंडीशनिंग छवि से फ़्रेम का एक क्रम।
Stability AI द्वारा जारी एक श्वेतपत्र बहु-दृश्य संश्लेषण उत्पन्न करने के लिए एक प्रसार मॉडल को परिष्कृत करने के आधार के रूप में एसवीडी की क्षमता को स्पष्ट करता है, इस प्रकार एक एकल स्थिर छवि से किसी वस्तु के कई सुसंगत विचारों को उत्पन्न करने में सक्षम बनाता है।
कंपनी के ब्लॉग पोस्ट के अनुसार, इससे शिक्षा, मनोरंजन और विपणन जैसे विभिन्न क्षेत्रों में संभावित उपयोग के ढेर सारे अवसर खुलते हैं।
कंपनी के खुलासे में एक महत्वपूर्ण बात यह है कि मानव समीक्षकों द्वारा किए गए एक बाहरी मूल्यांकन से पता चला है कि एसवीडी का आउटपुट रनवे और पिका लैब्स जैसे प्रतिस्पर्धियों द्वारा उत्पादित प्रीमियर बंद टेक्स्ट-टू-वीडियो मॉडल की गुणवत्ता से बेहतर है।
प्रारंभिक सफलता के बावजूद, Stability AI स्वीकार करता है कि मौजूदा मॉडलों में कई सीमाएँ हैं। उदाहरण के लिए, इन मॉडलों में कभी-कभी फोटोरिअलिस्टिक आउटपुट की कमी होती है, स्थिर वीडियो उत्पन्न होते हैं, या मानव आकृतियों की सटीक नकल करने में कठिनाई होती है।
लेकिन यह वीडियो निर्माण में उनके उद्यम की शुरुआत मात्र है। वर्तमान शोध पूर्वावलोकन का डेटा मौजूदा अंतरालों की पहचान करके और वीडियो में टेक्स्ट प्रॉम्प्ट या टेक्स्ट रेंडरिंग का समर्थन करने जैसी नई सुविधाओं को पेश करके इन मॉडलों को विकसित करने में मदद करेगा, जिससे उन्हें व्यावसायिक अनुप्रयोगों के लिए तैयार किया जा सकेगा।
विज्ञापन, शिक्षा और मनोरंजन सहित लेकिन इन्हीं तक सीमित नहीं क्षेत्रों को शामिल करने वाले विविध अनुप्रयोगों की क्षमता के साथ, ऐपमास्टर जैसे प्लेटफ़ॉर्म, जो आसानी से मोबाइल और वेब एप्लिकेशन बनाने के लिए टूल के साथ उपयोगकर्ताओं को सशक्त बनाने के लिए प्रसिद्ध हैं, स्टेबल वीडियो डिफ्यूजन को एक उपयोगी एकीकरण पा सकते हैं।
कंपनी की परिकल्पना है कि इन मॉडलों की खुली जांच के निष्कर्ष अधिक चिंताओं (जैसे पूर्वाग्रह) को उजागर करेंगे और बाद में सुरक्षित तैनाती की सुविधा प्रदान करने में सहायता करेंगे।
पहले से ही, विभिन्न प्रकार के मॉडल विकसित करने की योजनाएँ चल रही हैं जो स्थिर प्रसार द्वारा निर्मित आधार को मजबूत और विस्तारित करेंगे।
हालाँकि, यह अनिश्चित बना हुआ है कि ये सुधार उपयोगकर्ताओं के लिए कब उपलब्ध होंगे।