Stability AI, টেক স্পেসের একটি নেতৃস্থানীয় নাম, তাদের স্টেবল ভিডিও ডিফিউশন (SVD) লঞ্চ করার মাধ্যমে ভিডিও প্রজন্মের জগতে তার যুগান্তকারী প্রবেশ করেছে৷ এই অসাধারণ পদক্ষেপের সাথে, তারা দুটি অত্যন্ত উন্নত AI মডেল প্রদর্শন করেছে - SVD এবং SVD–XT, যা স্থির ছবি থেকে ছোট ভিডিও ক্লিপ তৈরি করার জন্য ডিজাইন করা হয়েছে।
যাইহোক, এখন পর্যন্ত, এই অত্যাধুনিক মডেলগুলি শুধুমাত্র গবেষণার উদ্দেশ্যে উন্মুক্ত। কোম্পানির মতে, SVD এবং SVD–XT উভয়ই উচ্চ-বিশ্বস্ততার ফলাফল অনুমোদন করে যা অন্যান্য বিদ্যমান কৃত্রিম ভিডিও জেনারেটরের কর্মক্ষমতাকে প্রতিদ্বন্দ্বী বা সম্ভাব্যভাবে ছাড়িয়ে যায়।
Stability AI লক্ষ্য হল এই ইমেজ-টু-ভিডিও মডেলগুলিকে সূক্ষ্ম-টিউন করার ক্ষেত্রে ব্যবহারকারীর প্রতিক্রিয়া থেকে উপকৃত হওয়া, গবেষণার পূর্বরূপের অংশ হিসাবে সেগুলিকে ওপেন-সোর্স করা। এই প্রচেষ্টা শেষ পর্যন্ত এই মডেলগুলি বাণিজ্যিকভাবে প্রয়োগ করার জন্য পথ প্রশস্ত করার জন্য কোম্পানির অভিপ্রায়কে নির্দেশ করে।
একটি কোম্পানির ব্লগ পোস্টে বিস্তারিত বলা হয়েছে যে SVD এবং SVD-XT সুপ্ত প্রসারণ মডেল নিয়োগ করে যা 576 x 1024 ভিডিও তৈরি করে, একটি কন্ডিশনার ফ্রেম হিসাবে একটি একক স্থির চিত্র ব্যবহার করে। যদিও আউটপুট ভিডিওগুলি সময়কালের মধ্যে সংক্ষিপ্ত - চার সেকেন্ডে সর্বোচ্চ - এই মডেলগুলি প্রতি সেকেন্ডে তিন ফ্রেম থেকে 30 ফ্রেম প্রতি সেকেন্ডের গতিতে সামগ্রী তৈরি করতে পারে৷ বিশেষত, SVD মডেলটি একটি স্থির চিত্র থেকে 14টি ফ্রেম আহরণের জন্য ক্যালিব্রেট করা হয়, যখন SVD-XT 25টি ফ্রেম তৈরি করার ক্ষমতা রাখে।
SVD তৈরি করতে, Stability AI আনুমানিক 600 মিলিয়ন নমুনা সমন্বিত একটি বিশাল, সতর্কতার সাথে তৈরি করা ভিডিও লাইব্রেরির উপর নির্ভর করে। কোম্পানী ডাটাবেসে সংকলিত নমুনাগুলিকে একটি প্রাথমিক মডেলকে প্রশিক্ষণের জন্য ব্যবহার করে, যা পরবর্তীতে চিত্র-টু-ভিডিও এবং পাঠ্য-থেকে-ভিডিও রূপান্তরের মতো ডাউনস্ট্রিম কাজগুলি পরিচালনা করার জন্য একটি ছোট, উচ্চ-ডিফ ডেটাসেট ব্যবহার করে পরিমার্জন করা হয়েছিল, যা এটিকে পূর্বাভাস দিতে সক্ষম করে। একটি একক কন্ডিশনার ইমেজ থেকে ফ্রেমের একটি ক্রম।
Stability AI দ্বারা প্রকাশিত একটি শ্বেতপত্র মাল্টি-ভিউ সংশ্লেষণ তৈরি করার জন্য একটি ডিফিউশন মডেলকে পরিমার্জিত করার জন্য একটি ভিত্তি হিসাবে SVD-এর সম্ভাব্যতাকে ব্যাখ্যা করে, এইভাবে একটি একক স্থির চিত্র থেকে একটি বস্তুর বেশ কয়েকটি সামঞ্জস্যপূর্ণ দৃষ্টিভঙ্গি তৈরি করতে সক্ষম করে।
কোম্পানির ব্লগ পোস্ট অনুসারে এটি শিক্ষা, বিনোদন এবং বিপণনের মতো বিভিন্ন ক্ষেত্রে সম্ভাব্য ব্যবহারের সুযোগের আধিক্য খুলে দেয়।
কোম্পানির প্রকাশের একটি উল্লেখযোগ্য নোট হল যে মানব পর্যালোচকদের দ্বারা পরিচালিত একটি বাহ্যিক মূল্যায়ন প্রকাশ করেছে যে SVD-এর আউটপুট রানওয়ে এবং পিকা ল্যাবসের মতো প্রতিযোগীদের দ্বারা উত্পাদিত প্রিমিয়ার ক্লোজড টেক্সট-টু-ভিডিও মডেলগুলির গুণমানকে ছাড়িয়ে গেছে।
প্রাথমিক সাফল্য সত্ত্বেও, Stability AI স্বীকার করে যে বর্তমান মডেলগুলিতে অনেক সীমাবদ্ধতা রয়েছে। উদাহরণস্বরূপ, এই মডেলগুলিতে মাঝে মাঝে ফটোরিয়্যালিস্টিক আউটপুটের অভাব থাকে, স্থির ভিডিও তৈরি করা হয় বা সঠিকভাবে মানুষের চিত্রগুলি প্রতিলিপি করার সাথে লড়াই করা হয়।
কিন্তু এটা শুধুমাত্র ভিডিও জেনারেশনে তাদের উদ্যোগের সূচনা। বর্তমান রিসার্চ প্রিভিউ-এর ডেটা বিদ্যমান ফাঁকগুলি চিহ্নিত করে এবং ভিডিওগুলিতে পাঠ্য প্রম্পট বা পাঠ্য রেন্ডারিং সমর্থন করার মতো নতুন বৈশিষ্ট্যগুলি প্রবর্তন করে এই মডেলগুলিকে বিকশিত করতে সাহায্য করবে, বাণিজ্যিক অ্যাপ্লিকেশনের জন্য প্রস্তুত করে৷
বিজ্ঞাপন, শিক্ষা এবং বিনোদন সহ কিন্তু সীমাবদ্ধ নয় এমন সেক্টরগুলিকে জুড়ে থাকা বিভিন্ন অ্যাপ্লিকেশনের সম্ভাবনার সাথে, অ্যাপমাস্টারের মতো প্ল্যাটফর্মগুলি, মোবাইল এবং ওয়েব অ্যাপ্লিকেশনগুলি সহজে তৈরি করার সরঞ্জামগুলির সাহায্যে ব্যবহারকারীদের ক্ষমতায়নের জন্য বিখ্যাত, স্থিতিশীল ভিডিও ডিফিউশন একটি দরকারী ইন্টিগ্রেশন খুঁজে পেতে পারে।
কোম্পানী ধারণা করে যে এই মডেলগুলির উন্মুক্ত তদন্তের ফলাফলগুলি আরও উদ্বেগ (যেমন পক্ষপাত) চিহ্নিত করবে এবং পরবর্তীতে একটি নিরাপদ স্থাপনার সুবিধার্থে সহায়তা করবে।
ইতিমধ্যে, বিভিন্ন ধরণের মডেল তৈরি করার পরিকল্পনা চলছে যা স্থিতিশীল প্রসারণ দ্বারা নির্মিত বেসকে শক্তিশালী এবং প্রসারিত করবে।
যাইহোক, কখন এই উন্নতিগুলি ব্যবহারকারীদের জন্য উপলব্ধ হবে তা অনিশ্চিত।