テキストからビデオへの人工知能 (AI) の急成長するドメインは、マルチメディア エクスペリエンスに革命を起こす準備ができており、 Nvidiaなどの先駆者がこの分野で目覚ましい進歩を遂げています。最先端のテクノロジーは、動画作成を民主化するだけでなく、GIF の領域を拡大する可能性を秘めています。
新たな洞察は、 Nvidiaのトロント AI ラボの研究論文と、潜在拡散モデルを使用した高解像度ビデオ合成というタイトルのマイクロサイトから収集できます。この研究では、計算リソースを圧倒することなくビデオを合成できる AI のクラスである潜在拡散モデル (LDM) を前提とした、今後の AI アート ジェネレーター ツールについて詳しく説明します。
Nvidia 、LDM テクノロジがテキストから画像へのジェネレータである Stable Diffusion に基づいて構築されており、潜在空間拡散モデルに時間次元を組み込んでいると主張しています。本質的に、AI は静止画像をリアルにレンダリングし、超解像技術を使用してそれらをアップスケールできます。これらのブレークスルーにより、ジェネレーターは、1280x2048 解像度の短い 4.7 秒のビデオと、運転シミュレーション用の 512x1024 解像度の長いビデオを作成できます。
この技術は今のところ革新的に見えるかもしれませんが、私たちはおそらくその潜在的なアプリケーションの表面をなぞったにすぎません.テキストからGIFへの生成の現在のユースケースは間違いなく魅力的ですが、この技術は、映画の翻案の自動化やビデオ作成の民主的な強化など、より幅広いアプリケーションに拡張できます.
あらゆる急成長技術と同様に、アーティファクトやモーフィングなど、生成されたビデオにはいくつかの欠陥があります。ただし、 Nvidiaの LDM のような AI を利用したツールの急速な進化は、ストック ビデオ ライブラリを含むさまざまな設定でより多くの採用が見られるまでそう長くはかからないことを示唆しています。
AI テキストからビデオへのジェネレーターは、 Nvidiaだけのものではありません。 Google Phenaki最近、より長いプロンプトから 20 秒のクリップと、比較的低品質の 2 分間のビデオを作成する能力を発表しました。もう 1 つのスタートアップである Runway は、テキストから画像へのジェネレーターである Stable Diffusion の作成者であり、Gen-2 AI ビデオ モデルも導入しました。このテクノロジーを利用して、ユーザーは生成されたビデオの静止画像を提供したり、ビデオ スタイルを要求したり、特定のプロンプトに応答したりできます。
ビデオ編集における AI アプリケーションのその他の注目すべき例には、Adobe Firefly のデモンストレーションがあり、Premiere Rush ソフトウェア内の Adobe の AI 機能を紹介しています。ユーザーは、希望する時間帯または季節を入力するだけで、残りは AI が処理します。
Nvidia 、 Google 、および Runway が提供する現在のデモンストレーションは、完全なテキストからビデオへの生成がまだ初期段階にあり、夢のような、または歪んだ結果をもたらしていることを示しています。それにもかかわらず、これらの初期の取り組みは急速な進歩を推進しており、将来の技術のより広範な利用への道を開いています.
小規模では、 AppMasterなどのno-codeプラットフォームは、人々がモバイル、Web、およびバックエンド アプリケーションを開発できるようにする上で大きな進歩を遂げ、スケーラブルなテクノロジ ソリューションをわずかな時間とコストで簡単に設計および作成できるようにしました。 AppMaster 、テクノロジーの民主化のもう 1 つの側面も浮き彫りにしています。つまり、複雑なツールやプロセスをより幅広いユーザーが利用できるようになっています。