Grow with AppMaster Grow with AppMaster.
Become our partner arrow ico

स्टेबिलिटी एआई ने आशाजनक वीडियो जेनरेशन मॉडल का अनावरण किया

स्टेबिलिटी एआई ने आशाजनक वीडियो जेनरेशन मॉडल का अनावरण किया

Stability AI, तकनीकी क्षेत्र में एक अग्रणी नाम है, जिसने अपने स्टेबल वीडियो डिफ्यूजन (एसवीडी) के लॉन्च के साथ वीडियो जेनरेशन क्षेत्र में अपनी अभूतपूर्व प्रविष्टि की है। इस उल्लेखनीय कदम के साथ, उन्होंने दो अत्यधिक उन्नत एआई मॉडल - एसवीडी और एसवीडी-एक्सटी का प्रदर्शन किया है, जो स्थिर छवियों से लघु वीडियो क्लिप उत्पन्न करने के लिए डिज़ाइन किए गए हैं।

हालाँकि, अभी तक, ये अत्याधुनिक मॉडल केवल अनुसंधान उद्देश्यों के लिए खुले हैं। कंपनी के अनुसार, एसवीडी और एसवीडी-एक्सटी दोनों उच्च-निष्ठा वाले परिणामों को मंजूरी देते हैं जो अन्य मौजूदा कृत्रिम वीडियो जनरेटर के प्रदर्शन को प्रतिद्वंद्वी या संभावित रूप से मात देते हैं।

Stability AI लक्ष्य इन छवि-से-वीडियो मॉडलों को शोध पूर्वावलोकन के हिस्से के रूप में ओपन-सोर्स करके ठीक-ठीक करने में उपयोगकर्ता की प्रतिक्रिया से लाभ उठाना है। यह प्रयास अंततः इन मॉडलों को व्यावसायिक रूप से लागू करने का मार्ग प्रशस्त करने की कंपनी की मंशा को दर्शाता है।

एक कंपनी ब्लॉग पोस्ट में विस्तार से बताया गया है कि एसवीडी और एसवीडी-एक्सटी अव्यक्त प्रसार मॉडल का उपयोग करते हैं जो कंडीशनिंग फ्रेम के रूप में एकल स्थिर छवि का उपयोग करके 576 x 1024 वीडियो उत्पन्न करते हैं। भले ही आउटपुट वीडियो की अवधि संक्षिप्त हो - अधिकतम चार सेकंड - ये मॉडल तीन फ्रेम प्रति सेकंड से लेकर 30 फ्रेम प्रति सेकंड की गति से सामग्री उत्पन्न कर सकते हैं। विशेष रूप से, एसवीडी मॉडल को स्थिर छवि से 14 फ्रेम प्राप्त करने के लिए कैलिब्रेट किया गया है, जबकि एसवीडी-एक्सटी में 25 फ्रेम तक उत्पन्न करने की क्षमता है।

एसवीडी बनाने के लिए, Stability AI लगभग 600 मिलियन नमूनों से युक्त एक विशाल, सावधानीपूर्वक क्यूरेटेड वीडियो लाइब्रेरी पर भरोसा किया। कंपनी ने प्राथमिक मॉडल को प्रशिक्षित करने के लिए डेटाबेस में संकलित नमूनों का उपयोग किया, जिसे बाद में इमेज-टू-वीडियो और टेक्स्ट-टू-वीडियो रूपांतरण जैसे डाउनस्ट्रीम कार्यों को संभालने के लिए एक छोटे, हाई-डेफ़ डेटासेट का उपयोग करके परिष्कृत किया गया, जिससे यह भविष्यवाणी करने में सक्षम हो गया। एक एकल कंडीशनिंग छवि से फ़्रेम का एक क्रम।

Stability AI द्वारा जारी एक श्वेतपत्र बहु-दृश्य संश्लेषण उत्पन्न करने के लिए एक प्रसार मॉडल को परिष्कृत करने के आधार के रूप में एसवीडी की क्षमता को स्पष्ट करता है, इस प्रकार एक एकल स्थिर छवि से किसी वस्तु के कई सुसंगत विचारों को उत्पन्न करने में सक्षम बनाता है।

कंपनी के ब्लॉग पोस्ट के अनुसार, इससे शिक्षा, मनोरंजन और विपणन जैसे विभिन्न क्षेत्रों में संभावित उपयोग के ढेर सारे अवसर खुलते हैं।

कंपनी के खुलासे में एक महत्वपूर्ण बात यह है कि मानव समीक्षकों द्वारा किए गए एक बाहरी मूल्यांकन से पता चला है कि एसवीडी का आउटपुट रनवे और पिका लैब्स जैसे प्रतिस्पर्धियों द्वारा उत्पादित प्रीमियर बंद टेक्स्ट-टू-वीडियो मॉडल की गुणवत्ता से बेहतर है।

प्रारंभिक सफलता के बावजूद, Stability AI स्वीकार करता है कि मौजूदा मॉडलों में कई सीमाएँ हैं। उदाहरण के लिए, इन मॉडलों में कभी-कभी फोटोरिअलिस्टिक आउटपुट की कमी होती है, स्थिर वीडियो उत्पन्न होते हैं, या मानव आकृतियों की सटीक नकल करने में कठिनाई होती है।

लेकिन यह वीडियो निर्माण में उनके उद्यम की शुरुआत मात्र है। वर्तमान शोध पूर्वावलोकन का डेटा मौजूदा अंतरालों की पहचान करके और वीडियो में टेक्स्ट प्रॉम्प्ट या टेक्स्ट रेंडरिंग का समर्थन करने जैसी नई सुविधाओं को पेश करके इन मॉडलों को विकसित करने में मदद करेगा, जिससे उन्हें व्यावसायिक अनुप्रयोगों के लिए तैयार किया जा सकेगा।

विज्ञापन, शिक्षा और मनोरंजन सहित लेकिन इन्हीं तक सीमित नहीं क्षेत्रों को शामिल करने वाले विविध अनुप्रयोगों की क्षमता के साथ, ऐपमास्टर जैसे प्लेटफ़ॉर्म, जो आसानी से मोबाइल और वेब एप्लिकेशन बनाने के लिए टूल के साथ उपयोगकर्ताओं को सशक्त बनाने के लिए प्रसिद्ध हैं, स्टेबल वीडियो डिफ्यूजन को एक उपयोगी एकीकरण पा सकते हैं।

कंपनी की परिकल्पना है कि इन मॉडलों की खुली जांच के निष्कर्ष अधिक चिंताओं (जैसे पूर्वाग्रह) को उजागर करेंगे और बाद में सुरक्षित तैनाती की सुविधा प्रदान करने में सहायता करेंगे।

पहले से ही, विभिन्न प्रकार के मॉडल विकसित करने की योजनाएँ चल रही हैं जो स्थिर प्रसार द्वारा निर्मित आधार को मजबूत और विस्तारित करेंगे।

हालाँकि, यह अनिश्चित बना हुआ है कि ये सुधार उपयोगकर्ताओं के लिए कब उपलब्ध होंगे।

संबंधित पोस्ट

सैमसंग ने इनोवेटिव सिक्योरिटी और प्रीमियम बिल्ड के साथ गैलेक्सी A55 का अनावरण किया
सैमसंग ने इनोवेटिव सिक्योरिटी और प्रीमियम बिल्ड के साथ गैलेक्सी A55 का अनावरण किया
सैमसंग ने गैलेक्सी ए55 और ए35 को पेश करते हुए अपने मिडरेंज लाइनअप का विस्तार किया है, जिसमें नॉक्स वॉल्ट सुरक्षा और उन्नत डिज़ाइन तत्व शामिल हैं, जो इस सेगमेंट को प्रमुख गुणों से भर देते हैं।
क्लाउडफ्लेयर ने बड़े भाषा मॉडलों को ढालने के लिए एआई के लिए फ़ायरवॉल का अनावरण किया
क्लाउडफ्लेयर ने बड़े भाषा मॉडलों को ढालने के लिए एआई के लिए फ़ायरवॉल का अनावरण किया
क्लाउडफ्लेयर ने AI के लिए फ़ायरवॉल के साथ कदम आगे बढ़ाया है, एक उन्नत WAF जिसे बड़े भाषा मॉडलों को लक्षित करने वाले संभावित दुरुपयोगों को पहले से पहचानने और विफल करने के लिए डिज़ाइन किया गया है।
OpenAI का ChatGPT अब बोलता है: वॉयस-इंटरएक्टिव AI का भविष्य
OpenAI का ChatGPT अब बोलता है: वॉयस-इंटरएक्टिव AI का भविष्य
चैटजीपीटी ने ओपनएआई द्वारा वॉयस क्षमताओं को शुरू करने के साथ एक मील का पत्थर हासिल किया है। उपयोगकर्ता अब हाथों से मुक्त बातचीत का आनंद ले सकते हैं क्योंकि चैटजीपीटी आईओएस, एंड्रॉइड और वेब पर प्रतिक्रियाओं को जोर से पढ़ता है।
निःशुल्क आरंभ करें
इसे स्वयं आजमाने के लिए प्रेरित हुए?

AppMaster की शक्ति को समझने का सबसे अच्छा तरीका है इसे अपने लिए देखना। निःशुल्क सब्सक्रिप्शन के साथ मिनटों में अपना स्वयं का एप्लिकेशन बनाएं

अपने विचारों को जीवन में उतारें