Grow with AppMaster Grow with AppMaster.
Become our partner arrow ico

安定性 AI が有望なビデオ生成モデルを発表

安定性 AI が有望なビデオ生成モデルを発表

テクノロジー分野の大手企業であるStability AI 、Stable Video Diffusion (SVD) の開始により、ビデオ生成の分野に画期的な参入を果たしました。この注目すべき動きにより、同社は静止画像から短いビデオ クリップを生成するように設計された 2 つの高度な AI モデル、SVD と SVD–XT を紹介しました。

ただし、現時点では、これらの最先端のモデルは研究目的でのみ公開されています。同社によれば、SVD と SVD-XT はどちらも、他の現存する人工ビデオ ジェネレーターのパフォーマンスに匹敵する、またはそれを上回る可能性のある高忠実度の結果を承認しています。

Stability AI研究プレビューの一部としてオープンソース化し、これらの画像からビデオへのモデルを微調整する際にユーザーのフィードバックを活用することを目指しています。この取り組みは、最終的にこれらのモデルを商業的に適用するための道を切り開くという同社の意図を示しています。

同社のブログ投稿では、SVD と SVD-XT が単一の静止画像を調整フレームとして使用して 576 x 1024 のビデオを生成する潜在拡散モデルを採用していると詳しく説明しています。出力ビデオの継続時間は短く、最大で 4 秒ですが、これらのモデルは 1 秒あたり 3 フレームから 1 秒あたり 30 フレームの範囲のペースでコンテンツを生成できます。具体的には、SVD モデルは静止画像から 14 フレームを生成するように調整されていますが、SVD-XT は最大 25 フレームを生成する機能を備えています。

SVD を作成するために、 Stability AI 、約 6 億のサンプルから構成される、細心の注意を払って厳選された膨大なビデオ ライブラリに依存しました。同社は、データベースにコンパイルされたサンプルを使用して一次モデルをトレーニングし、その後、画像からビデオへの変換やテキストからビデオへの変換などの下流タスクを処理するために、より小さな高解像度のデータセットを使用して改良し、予測を可能にしました。単一の調整画像からのフレームのシーケンス。

Stability AIが発表したホワイトペーパーでは、拡散モデルを改良してマルチビュー合成を生成するためのベースとしての SVD の可能性が説明されており、これにより、単一の静止画像からオブジェクトの複数の一貫したビューを生成できるようになります。

同社のブログ投稿によると、これにより、教育、エンターテイメント、マーケティングなどのさまざまな分野で潜在的な使用の機会が数多く開かれるという。

同社の開示における重要な点は、人間の審査員によって行われた外部評価で、SVD の出力が Runway や Pika Labs などの競合他社が作成した初公開のクローズド テキストからビデオへのモデルの品質を上回っていることが明らかになったということです。

初期の成功にもかかわらず、 Stability AI現在のモデルには多くの制限があることを認めています。たとえば、これらのモデルには、フォトリアリスティックな出力が欠けていたり、静止ビデオが生成されたり、人物像を正確に複製できなかったりすることがあります。

しかし、それはビデオ生成への彼らの冒険の始まりにすぎません。現在の調査プレビューのデータは、既存のギャップを特定し、ビデオ内でのテキスト プロンプトやテキスト レンダリングのサポートなどの新機能を導入することで、これらのモデルを進化させ、商用アプリケーションの準備を整えるのに役立ちます。

広告、教育、エンターテインメントなどを含むがこれらに限定されない分野を含む多様なアプリケーションの可能性があるため、モバイルおよび Web アプリケーションを簡単に作成するツールをユーザーに提供することで有名なAppMasterのようなプラットフォームは、Stable Video Diffusion が有用な統合であると考えるかもしれません。

同社は、これらのモデルの公開調査から得られた結果が、より多くの懸念(偏見など)に警告を発し、後でより安全な導入を促進するのに役立つと想定しています。

すでに、安定普及によって構築された基盤を強化・拡大するさまざまなモデルの開発計画が進行中です。

ただし、これらの改善がいつユーザーに提供されるかは不明です。

関連記事

Samsung、革新的なセキュリティとプレミアムビルドを備えた Galaxy A55 を発表
Samsung、革新的なセキュリティとプレミアムビルドを備えた Galaxy A55 を発表
Samsung は、Knox Vault セキュリティとアップグレードされたデザイン要素を特徴とする Galaxy A55 および A35 を導入してミッドレンジのラインナップを拡大し、このセグメントにフラッグシップ品質を注入します。
Cloudflare、大規模な言語モデルを保護する AI 用ファイアウォールを発表
Cloudflare、大規模な言語モデルを保護する AI 用ファイアウォールを発表
Cloudflare は、大規模言語モデルをターゲットとした潜在的な不正行為を先制的に特定し、阻止するように設計された高度な WAF である Firewall for AI の導入を進めています。
OpenAI の ChatGPT が語る: 音声インタラクティブ AI の未来
OpenAI の ChatGPT が語る: 音声インタラクティブ AI の未来
ChatGPT は、OpenAI の音声機能の展開によりマイルストーン機能を達成しました。ユーザーは、ChatGPT が iOS、Android、Web 上で応答を読み上げるため、ハンズフリーの対話を楽しむことができるようになりました。
無料で始めましょう
これを自分で試してみませんか?

AppMaster の能力を理解する最善の方法は、自分の目で確かめることです。無料サブスクリプションで数分で独自のアプリケーションを作成

あなたのアイデアを生き生きとさせる