Domain kecerdasan buatan (AI) text-to-video yang sedang berkembang siap untuk merevolusi pengalaman multimedia, dengan perintis seperti Nvidia menunjukkan kemajuan yang mengesankan di lapangan. Teknologi mutakhir tidak hanya memiliki potensi untuk mendemokratisasi pembuatan video, tetapi juga untuk meningkatkan ranah GIF.
Wawasan segar dapat diperoleh dari makalah penelitian dan situs mikro Nvidia 's Toronto AI Lab, berjudul Sintesis Video Resolusi Tinggi dengan Model Difusi Laten . Studi ini mempelajari alat pembuat seni AI mendatang yang didasarkan pada Latent Diffusion Models (LDMs) – kelas AI yang mampu mensintesis video tanpa sumber daya komputasi yang berlebihan.
Nvidia menegaskan bahwa teknologi LDM dibangun di atas generator teks-ke-gambar, Difusi Stabil, dan memasukkan dimensi temporal ke model difusi ruang laten. Intinya, AI dapat merender gambar statis secara realistis dan meningkatkannya menggunakan teknik resolusi super. Terobosan ini memungkinkan generator untuk membuat video lebih pendek, 4,7 detik dengan resolusi 1280x2048, dan video resolusi 512x1024 yang lebih panjang untuk simulasi mengemudi.
Seinovatif apa pun teknologi ini saat ini, kami kemungkinan besar hanya menggores permukaan aplikasi potensialnya. Kasus penggunaan saat ini untuk pembuatan teks-ke-GIF tidak diragukan lagi menarik, tetapi teknologinya dapat meluas ke aplikasi yang lebih luas, seperti mengotomatiskan adaptasi film dan meningkatkan pembuatan video secara demokratis.
Seperti halnya teknologi yang sedang berkembang, ada beberapa ketidaksempurnaan dalam video yang dihasilkan, seperti artefak dan morphing. Namun, evolusi cepat alat bertenaga AI seperti LDM Nvidia menunjukkan bahwa tidak lama lagi mereka akan menemukan adopsi yang lebih besar dalam berbagai pengaturan, termasuk pustaka video stok.
Generator teks-ke-video AI tidak eksklusif untuk Nvidia. Google Phenaki baru-baru ini meluncurkan kapasitasnya untuk menghasilkan klip 20 detik dari petunjuk yang lebih panjang dan video 2 menit dengan kualitas yang relatif lebih rendah. Startup lain, Runway, pembuat generator teks-ke-gambar Stable Diffusion, juga memperkenalkan model video AI Gen-2. Memanfaatkan teknologi ini, pengguna dapat memberikan gambar diam untuk video yang dihasilkan, meminta gaya video, dan merespons petunjuk tertentu.
Contoh penting lainnya dari aplikasi AI dalam pengeditan video termasuk demonstrasi Adobe Firefly, yang menampilkan kemampuan AI Adobe dalam perangkat lunak Premiere Rush. Pengguna hanya perlu memasukkan waktu atau musim yang diinginkan, dan AI menangani sisanya.
Demonstrasi saat ini yang disediakan oleh Nvidia, Google, dan Runway menggambarkan bahwa pembuatan teks-ke-video penuh masih dalam tahap awal, menghasilkan hasil yang seperti mimpi atau terdistorsi. Namun demikian, upaya awal ini mendorong kemajuan pesat, membuka jalan bagi pemanfaatan teknologi yang lebih luas di masa depan.
Pada skala yang lebih kecil, platform no-code seperti AppMaster telah membuat langkah signifikan dalam memungkinkan orang mengembangkan aplikasi seluler, web, dan backend, membuatnya lebih mudah untuk merancang dan membuat solusi teknologi yang dapat diskalakan dengan waktu dan biaya yang lebih sedikit. AppMaster juga menyoroti aspek lain dari demokratisasi teknologi, di mana alat dan proses yang rumit dapat diakses oleh lebih banyak pengguna.