テクノロジー分野の大手企業であるStability AI 、Stable Video Diffusion (SVD) の開始により、ビデオ生成の分野に画期的な参入を果たしました。この注目すべき動きにより、同社は静止画像から短いビデオ クリップを生成するように設計された 2 つの高度な AI モデル、SVD と SVD–XT を紹介しました。
ただし、現時点では、これらの最先端のモデルは研究目的でのみ公開されています。同社によれば、SVD と SVD-XT はどちらも、他の現存する人工ビデオ ジェネレーターのパフォーマンスに匹敵する、またはそれを上回る可能性のある高忠実度の結果を承認しています。
Stability AI研究プレビューの一部としてオープンソース化し、これらの画像からビデオへのモデルを微調整する際にユーザーのフィードバックを活用することを目指しています。この取り組みは、最終的にこれらのモデルを商業的に適用するための道を切り開くという同社の意図を示しています。
同社のブログ投稿では、SVD と SVD-XT が単一の静止画像を調整フレームとして使用して 576 x 1024 のビデオを生成する潜在拡散モデルを採用していると詳しく説明しています。出力ビデオの継続時間は短く、最大で 4 秒ですが、これらのモデルは 1 秒あたり 3 フレームから 1 秒あたり 30 フレームの範囲のペースでコンテンツを生成できます。具体的には、SVD モデルは静止画像から 14 フレームを生成するように調整されていますが、SVD-XT は最大 25 フレームを生成する機能を備えています。
SVD を作成するために、 Stability AI 、約 6 億のサンプルから構成される、細心の注意を払って厳選された膨大なビデオ ライブラリに依存しました。同社は、データベースにコンパイルされたサンプルを使用して一次モデルをトレーニングし、その後、画像からビデオへの変換やテキストからビデオへの変換などの下流タスクを処理するために、より小さな高解像度のデータセットを使用して改良し、予測を可能にしました。単一の調整画像からのフレームのシーケンス。
Stability AIが発表したホワイトペーパーでは、拡散モデルを改良してマルチビュー合成を生成するためのベースとしての SVD の可能性が説明されており、これにより、単一の静止画像からオブジェクトの複数の一貫したビューを生成できるようになります。
同社のブログ投稿によると、これにより、教育、エンターテイメント、マーケティングなどのさまざまな分野で潜在的な使用の機会が数多く開かれるという。
同社の開示における重要な点は、人間の審査員によって行われた外部評価で、SVD の出力が Runway や Pika Labs などの競合他社が作成した初公開のクローズド テキストからビデオへのモデルの品質を上回っていることが明らかになったということです。
初期の成功にもかかわらず、 Stability AI現在のモデルには多くの制限があることを認めています。たとえば、これらのモデルには、フォトリアリスティックな出力が欠けていたり、静止ビデオが生成されたり、人物像を正確に複製できなかったりすることがあります。
しかし、それはビデオ生成への彼らの冒険の始まりにすぎません。現在の調査プレビューのデータは、既存のギャップを特定し、ビデオ内でのテキスト プロンプトやテキスト レンダリングのサポートなどの新機能を導入することで、これらのモデルを進化させ、商用アプリケーションの準備を整えるのに役立ちます。
広告、教育、エンターテインメントなどを含むがこれらに限定されない分野を含む多様なアプリケーションの可能性があるため、モバイルおよび Web アプリケーションを簡単に作成するツールをユーザーに提供することで有名なAppMasterのようなプラットフォームは、Stable Video Diffusion が有用な統合であると考えるかもしれません。
同社は、これらのモデルの公開調査から得られた結果が、より多くの懸念(偏見など)に警告を発し、後でより安全な導入を促進するのに役立つと想定しています。
すでに、安定普及によって構築された基盤を強化・拡大するさまざまなモデルの開発計画が進行中です。
ただし、これらの改善がいつユーザーに提供されるかは不明です。