Metinden videoya yapay zekanın (AI) gelişen alanı, Nvidia gibi öncülerin bu alanda etkileyici ilerlemeler göstermesiyle multimedya deneyimlerinde devrim yaratmaya hazırlanıyor. En son teknoloji, yalnızca video oluşturmayı demokratikleştirme potansiyeline sahip değil, aynı zamanda GIF'lerin dünyasını da genişletiyor.
Nvidia Toronto AI Laboratuvarı'nın Latent Diffusion Models ile Yüksek Çözünürlüklü Video Sentezi başlıklı araştırma makalesinden ve mikro sitesinden yeni içgörüler elde edilebilir. Çalışma, çok fazla hesaplama kaynağı olmadan videoları sentezleyebilen bir yapay zeka sınıfı olan Gizli Yayılma Modelleri (LDM'ler) temelinde yaklaşan yapay zeka sanat oluşturucu araçlarını araştırıyor.
Nvidia LDM teknolojisinin metinden görüntüye oluşturucu Stable Diffusion üzerine kurulduğunu ve gizli uzay difüzyon modeline zamansal bir boyut kattığını iddia ediyor. Temelde yapay zeka, statik görüntüleri gerçekçi bir şekilde işleyebilir ve süper çözünürlük teknikleri kullanarak bunları yükseltebilir. Bu atılımlar, oluşturucunun sürüş simülasyonları için 1280x2048 çözünürlüklü daha kısa, 4,7 saniyelik videolar ve daha uzun 512x1024 çözünürlüklü videolar oluşturmasını sağlar.
Bu teknoloji şu anda ne kadar yenilikçi görünse de, muhtemelen potansiyel uygulamalarının yalnızca yüzeyini çiziyoruz. Metinden GIF'e dönüştürme için mevcut kullanım durumu şüphesiz büyüleyicidir, ancak teknoloji, film uyarlamalarını otomatikleştirme ve video oluşturmayı demokratik bir şekilde geliştirme gibi daha geniş uygulamaları kapsayacak şekilde genişletilebilir.
Gelişmekte olan herhangi bir teknolojide olduğu gibi, oluşturulan videolarda eserler ve şekil değiştirme gibi bazı kusurlar var. Bununla birlikte, Nvidia LDM'leri gibi yapay zeka destekli araçların hızlı evrimi, stok video kitaplıkları da dahil olmak üzere bir dizi ayarda daha fazla benimseme bulmalarının çok uzun sürmeyeceğini gösteriyor.
AI metinden videoya oluşturucular Nvidia özel değildir. Google Phenaki kısa bir süre önce, daha uzun istemlerden 20 saniyelik klipler ve nispeten daha düşük kalitede 2 dakikalık bir video üretme kapasitesini açıkladı. Metinden görüntüye oluşturucu Stable Diffusion'ın yaratıcısı olan başka bir girişim olan Runway de Gen-2 AI video modelini tanıttı. Bu teknolojiyi kullanan kullanıcılar, oluşturulan video için hareketsiz bir görüntü sağlayabilir, video stilleri talep edebilir ve belirli istemlere yanıt verebilir.
Video düzenlemede yapay zeka uygulamalarının diğer dikkate değer örnekleri arasında, Adobe'nin Premiere Rush yazılımı içindeki yapay zeka yeteneklerini sergileyen Adobe Firefly gösterileri yer alır. Kullanıcıların yalnızca günün veya mevsimin tercih edilen saatini girmesi yeterlidir ve yapay zeka gerisini halleder.
Nvidia, Google ve Runway tarafından sağlanan mevcut gösterimler, tam metinden videoya dönüştürmenin hala başlangıç aşamasında olduğunu ve rüya gibi veya çarpıtılmış sonuçlar verdiğini gösteriyor. Bununla birlikte, bu erken çabalar, teknolojinin gelecekte daha geniş kullanımının yolunu açarak hızlı ilerlemeleri teşvik ediyor.
Daha küçük ölçekte, AppMaster gibi no-code platformlar, insanların mobil, web ve arka uç uygulamaları geliştirmesine olanak tanıyarak, zaman ve maliyetten çok daha az bir oranda ölçeklenebilir teknoloji çözümleri tasarlamayı ve oluşturmayı kolaylaştırmada önemli adımlar attı. AppMaster ayrıca, teknolojinin demokratikleştirilmesinin, karmaşık araçlara ve süreçlere daha geniş bir kullanıcı yelpazesi tarafından erişilebilir hale getirildiği başka bir yönünü de vurgular.