24 Kas 2023·1 dk okuma

Stabilite Yapay Zekası Gelecek Vaat Eden Video Oluşturma Modellerini Ortaya Çıkarıyor

Stability AI, Stabil Video Dağıtım modellerinin ilk çıkışıyla video oluşturma alanına bir adım atıyor.

Teknoloji alanının önde gelen isimlerinden biri olan Stability AI, Stabil Video Difüzyonunu (SVD) piyasaya sürerek video üretim alanına çığır açan bir giriş yaptı. Bu dikkat çekici hamleyle, durağan görüntülerden kısa video klipler oluşturmak için tasarlanan son derece gelişmiş iki yapay zeka modelini (SVD ve SVD–XT) sergilediler.

Ancak şu an itibariyle bu son teknoloji modeller yalnızca araştırma amaçlı kullanıma açık. Şirkete göre, hem SVD hem de SVD-XT, diğer mevcut yapay video oluşturucuların performansına rakip olabilecek veya onları potansiyel olarak gölgede bırakacak yüksek kaliteli sonuçları onaylıyor.

Stability AI araştırma ön izlemesinin bir parçası olarak bunları açık kaynaklı hale getirerek bu görüntüden videoya modellere ince ayar yaparken kullanıcı geri bildirimlerinden yararlanmayı amaçlıyor. Bu çaba, şirketin bu modellerin ticari olarak uygulanmasının önünü açma niyetini gösteriyor.

Şirketin blog yazısında, SVD ve SVD-XT'nin, tek bir sabit görüntüyü koşullandırma çerçevesi olarak kullanarak 576 x 1024 video üreten gizli yayılma modellerini kullandığı ayrıntılı olarak belirtildi. Çıkış videolarının süresi kısa olsa da (maksimum dört saniyeye kadar), bu modeller saniyede üç kareden saniyede 30 kareye kadar değişen bir hızda içerik üretebilir. Spesifik olarak, SVD modeli sabit bir görüntüden 14 kare türetecek şekilde kalibre edilirken, SVD-XT 25 kareye kadar üretme kapasitesine sahiptir.

Stability AI, SVD'yi oluşturmak için yaklaşık 600 milyon örnekten oluşan, titizlikle seçilmiş devasa bir video kitaplığından yararlandı. Şirket, veritabanında derlenen örnekleri birincil modeli eğitmek için kullandı; bu model daha sonra görüntüden videoya ve metinden videoya dönüştürme gibi aşağı akışlı görevleri yerine getirmek için daha küçük, yüksek çözünürlüklü bir veri kümesi kullanılarak iyileştirildi ve böylece tahminlerde bulunulması sağlandı. tekil bir koşullandırma görüntüsünden alınan bir dizi kare.

Stability AI tarafından yayınlanan bir teknik inceleme, SVD'nin, çoklu görüntü sentezi oluşturmak amacıyla bir difüzyon modelini geliştirmek için bir temel olarak potansiyelini açıklıyor ve böylece tek bir hareketsiz görüntüden bir nesnenin birkaç tutarlı görüntüsünün oluşturulmasına olanak tanıyor.

Şirketin blog gönderisine göre bu, eğitim, eğlence ve pazarlama gibi çeşitli sektörlerde potansiyel kullanımlar için çok sayıda fırsat sunuyor.

Şirketin açıklamasındaki önemli bir not, insan incelemeciler tarafından yürütülen harici bir değerlendirmenin, SVD'nin çıktısının Runway ve Pika Labs gibi rakipler tarafından üretilen ilk kapalı metinden videoya modellerin kalitesini aştığını ortaya çıkarmasıdır.

Başlangıçtaki başarıya rağmen Stability AI, mevcut modellerde birçok sınırlamanın bulunduğunu kabul ediyor. Örneğin, bu modeller bazen fotogerçekçi çıktılardan yoksun kalıyor, sabit videolar üretiyor veya insan figürlerini doğru şekilde kopyalamakta zorlanıyor.

Ancak bu, video üretimine yönelik girişimlerinin yalnızca başlangıcıdır. Mevcut araştırma önizlemesinin verileri, mevcut boşlukları tanımlayarak ve videolarda metin istemlerini veya metin oluşturmayı desteklemek ve bunları ticari uygulamalar için hazır hale getirmek gibi yeni özellikler sunarak bu modellerin geliştirilmesine yardımcı olacaktır.

Reklamcılık, eğitim ve eğlence dahil ancak bunlarla sınırlı olmamak üzere sektörleri kapsayan çeşitli uygulamaların potansiyeli ile, kullanıcılara mobil ve web uygulamalarını kolayca oluşturmalarını sağlayacak araçlarla destek vermesiyle tanınan AppMaster gibi platformlar, Stable Video Diffusion'ı yararlı bir entegrasyon olarak görebilir.

Şirket, bu modellerin açık araştırmasından elde edilen bulguların daha fazla endişeyi (önyargılar gibi) işaretleyeceğini ve daha sonra daha güvenli bir dağıtımın kolaylaştırılmasına yardımcı olacağını öngörüyor.

Halihazırda istikrarlı yayılmayla oluşturulan temeli güçlendirecek ve genişletecek çeşitli modeller geliştirme planları yapılıyor.

Ancak bu iyileştirmelerin ne zaman kullanıcılara sunulacağı belirsizliğini koruyor.

İlgili haberler