24 Nov 2023·1 menit membaca

Stability AI Meluncurkan Model Pembuatan Video yang Menjanjikan

Stability AI mengambil lompatan ke dalam domain pembuatan video dengan debut model Difusi Video Stabil.

Stability AI, nama terkemuka di bidang teknologi, telah membuat terobosan baru dalam dunia generasi video dengan peluncuran Stable Video Diffusion (SVD). Dengan langkah luar biasa ini, mereka memamerkan dua model AI yang sangat canggih - SVD dan SVD–XT, yang dirancang untuk menghasilkan klip video pendek dari gambar diam.

Namun, hingga saat ini, model canggih ini hanya terbuka untuk tujuan penelitian. Menurut perusahaan, baik SVD maupun SVD–XT memberikan hasil dengan fidelitas tinggi yang menyaingi atau berpotensi mengungguli kinerja generator video buatan lain yang masih ada.

Stability AI bertujuan untuk memanfaatkan umpan balik pengguna dalam menyempurnakan model gambar-ke-video ini, dengan menjadikan model tersebut sebagai sumber terbuka sebagai bagian dari pratinjau penelitian. Upaya ini menandakan niat perusahaan untuk membuka jalan bagi penerapan model ini secara komersial.

Sebuah postingan blog perusahaan merinci bahwa SVD dan SVD-XT menggunakan model difusi laten yang menghasilkan video 576 x 1024, menggunakan satu gambar diam sebagai bingkai pengkondisian. Meskipun video keluarannya berdurasi singkat – maksimal empat detik – model ini dapat menghasilkan konten dengan kecepatan mulai dari tiga frame per detik hingga 30 frame per detik. Secara khusus, model SVD dikalibrasi untuk menghasilkan 14 frame dari gambar diam, sedangkan SVD-XT memiliki kemampuan untuk menghasilkan hingga 25 frame.

Untuk membuat SVD, Stability AI mengandalkan perpustakaan video yang sangat besar dan dikurasi dengan cermat yang terdiri dari sekitar 600 juta sampel. Perusahaan menggunakan sampel yang dikompilasi dalam database untuk melatih model utama, yang kemudian disempurnakan menggunakan kumpulan data definisi tinggi yang lebih kecil untuk menangani tugas-tugas hilir seperti konversi gambar-ke-video dan teks-ke-video, sehingga memungkinkannya untuk memprediksi urutan bingkai dari gambar pengkondisian tunggal.

Sebuah whitepaper yang dirilis oleh Stability AI menjelaskan potensi SVD sebagai dasar untuk menyempurnakan model difusi guna menghasilkan sintesis multi-tampilan, sehingga memungkinkan pembuatan beberapa tampilan objek yang konsisten dari gambar diam tunggal.

Hal ini membuka banyak peluang untuk pemanfaatan potensial di berbagai sektor, seperti pendidikan, hiburan, dan pemasaran, menurut postingan blog perusahaan.

Catatan penting dalam pengungkapan perusahaan adalah bahwa evaluasi eksternal yang dilakukan oleh peninjau manusia mengungkapkan bahwa keluaran SVD melampaui kualitas model teks-ke-video tertutup perdana yang diproduksi oleh pesaing seperti Runway dan Pika Labs.

Meskipun kesuksesan awalnya, Stability AI mengakui bahwa ada banyak keterbatasan dalam model saat ini. Misalnya, model-model ini terkadang kekurangan keluaran fotorealistik, menghasilkan video diam, atau kesulitan dalam mereplikasi figur manusia secara akurat.

Namun ini hanyalah awal dari usaha mereka dalam pembuatan video. Data pratinjau penelitian ini akan membantu mengembangkan model-model ini dengan mengidentifikasi kesenjangan yang ada dan memperkenalkan fitur-fitur baru, seperti mendukung perintah teks atau rendering teks dalam video, sehingga siap untuk aplikasi komersial.

Dengan potensi beragam aplikasi yang mencakup berbagai sektor termasuk namun tidak terbatas pada, periklanan, pendidikan, dan hiburan, platform seperti AppMaster , yang terkenal karena memberdayakan pengguna dengan alat untuk membuat aplikasi seluler dan web dengan mudah, mungkin menganggap Difusi Video Stabil sebagai integrasi yang berguna.

Perusahaan memperkirakan bahwa temuan dari penyelidikan terbuka terhadap model-model ini akan menunjukkan lebih banyak kekhawatiran (seperti bias) dan membantu memfasilitasi penerapan yang lebih aman di kemudian hari.

Saat ini, rencana sedang dilakukan untuk mengembangkan berbagai model yang akan memperkuat dan memperluas basis yang dibangun melalui difusi yang stabil.

Namun, masih belum pasti kapan peningkatan ini akan tersedia bagi pengguna.