20 जून 2023·1 मिनट पढ़ने में

मेटा एआई वॉइसबॉक्स पेश करता है, एक क्रांतिकारी टेक्स्ट-टू-स्पीच टूल प्रतिद्वंद्वी चैटजीपीटी

मेटा एआई का नवीनतम इनोवेशन, वॉयसबॉक्स, एक अभूतपूर्व टेक्स्ट-टू-स्पीच जनरेटर है, जो गति और प्रदर्शन के मामले में मौजूदा एआई मॉडल से बेहतर प्रदर्शन करता है। एक अद्वितीय प्रशिक्षण दृष्टिकोण का लाभ उठाते हुए, वॉइसबॉक्स अनुप्रयोगों की एक विस्तृत श्रृंखला की पेशकश करते हुए, इन-कॉन्टेक्स्ट लर्निंग के माध्यम से सामान्यीकरण कर सकता है।

मेटा एआई वॉइसबॉक्स पेश करता है, एक क्रांतिकारी टेक्स्ट-टू-स्पीच टूल प्रतिद्वंद्वी चैटजीपीटी

आर्टिफिशियल इंटेलिजेंस डोमेन में एक महत्वपूर्ण विकास में, मेटा एआई ने वॉयसबॉक्स नामक अपने उन्नत टेक्स्ट-टू-स्पीच (टीटीएस) जनरेटर का खुलासा किया है। यह नया एआई सिस्टम स्पीड में ओपनएआई के चैटजीपीटी और गूगल के बार्ड जैसे लोकप्रिय मॉडलों से आगे निकल गया है, जो समान प्रदर्शन स्तरों के साथ 20 गुना तेज है।

वॉइसबॉक्स ने पारंपरिक टीटीएस आर्किटेक्चर से काफी हटकर एक अनोखे दृष्टिकोण पर अपनी नींव रखी है। ElevenLabs Prime Voice AI जैसे अन्य TTS मॉडल के विपरीत, मेटा का Voicebox प्रासंगिक अनुमान लगाने और बड़े पैमाने पर प्रशिक्षण डेटा सेट का लाभ उठाने में सक्षम है। नतीजतन, यह संकुचित, अत्यधिक क्यूरेटेड, लेबल किए गए डेटा सेटों पर भरोसा करने के बजाय कार्यों में सामान्यीकरण कर सकता है।

टीटीएस मॉडल में बड़ी मात्रा में ऑडियो डेटा का उपयोग करने के पहले के प्रयासों से ऑडियो आउटपुट गुणवत्ता में काफी कमी आई। हालाँकि, मेटा ने एक नई प्रशिक्षण योजना विकसित करके इस चुनौती को पार कर लिया है जो लेबल और क्यूरेशन से दूर है। ऑडियो डेटा को 'इन-फिलिंग' करने में सक्षम आर्किटेक्चर को नियोजित करके, वॉइसबॉक्स स्पीच जेनरेशन कार्यों के लिए अनुकूल हो सकता है, जिसके लिए इसे विशेष रूप से प्रशिक्षित नहीं किया गया था - इस तरह के मॉडल के लिए पहला, जैसा कि मेटा एआई द्वारा वर्णित है।

यह अभिनव सुविधा वॉइसबॉक्स को विभिन्न प्रकार के कार्यों को करने की अनुमति देती है, पाठ से भाषण का अनुवाद करने और पृष्ठभूमि के शोर को खत्म करने के लिए प्रतिस्थापन भाषण को संश्लेषित करने से लेकर विभिन्न भाषा के आउटपुट में स्पीकर की आवाज को लागू करने तक। जैसा कि कंपनी द्वारा प्रकाशित एक शोध पत्र में प्रदर्शित किया गया है, वॉयसबॉक्स केवल आवश्यक टेक्स्ट आउटपुट और तीन सेकंड की ऑडियो क्लिप का उपयोग करके यह सब प्राप्त कर सकता है।

एक महत्वपूर्ण लाभ यह है कि मेटा के वॉयसबॉक्स और ओपनएआई के चैटजीपीटी शेयर दोनों संदर्भ में सीखने के माध्यम से सामान्यीकरण करने की उनकी क्षमता है, जो उन्हें अन्य टीटीएस जनरेटर से अलग करता है। यह क्षमता संभावित अनुप्रयोगों और उपयोग के मामलों की एक विस्तृत श्रृंखला के लिए चरण निर्धारित करती है, जिससे हम एआई के साथ कैसे बातचीत करते हैं और जानकारी का उपभोग करते हैं।

low-code और no-code प्लेटफॉर्म के दायरे में, ऐपमास्टर जैसे समाधानों ने उपयोगकर्ताओं की विविध श्रेणी के लिए बैकएंड, वेब और मोबाइल एप्लिकेशन के निर्माण को सरल बनाकर एप्लिकेशन विकास में क्रांति ला दी है। उभरती हुई प्रगति और वॉइसबॉक्स जैसे एआई टूल्स की शुरुआत के साथ, हम चैटबॉट्स, वॉइस असिस्टेंट और एक्सेसिबिलिटी सॉल्यूशंस सहित कई उद्योगों में और वृद्धि की उम्मीद कर सकते हैं, जिससे एक अधिक कनेक्टेड और अनुकूली डिजिटल परिदृश्य हो सकता है।

जैसा कि एआई एक आश्चर्यजनक गति से आगे बढ़ना जारी रखता है, यह देखना दिलचस्प होगा कि कैसे डेवलपर्स और उपयोगकर्ता वॉयसबॉक्स जैसे शक्तिशाली उपकरणों को अपनी परियोजनाओं में एकीकृत करते हैं, नवाचार चलाते हैं और प्रौद्योगिकी के भविष्य को बदलते हैं।

Easy to start
Create something amazing

Experiment with AppMaster with free plan.
When you will be ready you can choose the proper subscription.

Get Started