2023年11月24日·阅读约1分钟

稳定性 AI 推出有前途的视频生成模型

Stability AI 首次推出稳定视频扩散模型，跨入视频生成领域。

Stability AI是科技领域的领先品牌，通过推出稳定视频扩散 (SVD)，突破性地进入了视频生成领域。通过这一非凡举措，他们展示了两种高度先进的人工智能模型 - SVD 和 SVD–XT，旨在从静止图像生成短视频剪辑。

然而，到目前为止，这些最先进的模型仅开放用于研究目的。据该公司称，SVD 和 SVD–XT 都认可高保真结果，可与其他现有人工视频生成器的性能相媲美或可能超越。

Stability AI旨在从用户反馈中受益，对这些图像到视频模型进行微调，并将其开源作为研究预览的一部分。这一努力表明该公司打算为最终将这些模型应用于商业铺平道路。

公司博客文章详细介绍了 SVD 和 SVD-XT 采用潜在扩散模型来生成 576 x 1024 视频，并使用单个静态图像作为调节帧。尽管输出视频的持续时间很短（最多四秒），但这些模型可以以每秒 3 帧到每秒 30 帧的速度生成内容。具体来说，SVD 模型经过校准，可以从静止图像中导出 14 帧，而 SVD-XT 能够生成多达 25 帧。

为了创建 SVD， Stability AI依赖于一个庞大、精心策划的视频库，其中包含约 6 亿个样本。该公司使用数据库中编译的样本来训练主要模型，随后使用较小的高清数据集对该模型进行改进，以处理图像到视频和文本到视频转换等下游任务，使其能够预测来自单个调节图像的帧序列。

Stability AI发布的白皮书阐明了 SVD 作为细化扩散模型以生成多视图合成的基础的潜力，从而能够从单个静态图像生成对象的多个一致视图。

根据该公司的博客文章，这为教育、娱乐和营销等各个领域的潜在用途带来了大量的机会。

该公司披露的一个重要信息是，由人工审核员进行的外部评估显示，SVD 的输出超过了 Runway 和 Pika Labs 等竞争对手制作的首个封闭式文本到视频模型的质量。

尽管取得了初步成功， Stability AI也承认当前模型存在许多局限性。例如，这些模型有时缺乏逼真的输出、生成静态视频或难以准确复制人物形象。

但这只是他们涉足视频制作领域的开始。目前的研究预览数据将通过识别现有差距并引入新功能（例如支持视频中的文本提示或文本渲染）来帮助发展这些模型，使它们为商业应用做好准备。

鉴于涵盖广告、教育和娱乐等领域的多种应用程序的潜力，像 AppMaster 这样的平台（以向用户提供轻松创建移动和 Web 应用程序的工具而闻名）可能会发现稳定视频扩散是一个有用的集成。

该公司预计，对这些模型的公开调查结果将引发更多担忧（例如偏见），并有助于促进以后更安全的部署。

目前正在计划开发各种模型，以加强和扩展稳定扩散所建立的基础。

然而，这些改进何时可供用户使用仍不确定。

Easy to start

Create something amazing

Experiment with AppMaster with free plan.
When you will be ready you can choose the proper subscription.

Get Started

相关新闻