Stability AI是科技领域的领先品牌,通过推出稳定视频扩散 (SVD),突破性地进入了视频生成领域。通过这一非凡举措,他们展示了两种高度先进的人工智能模型 - SVD 和 SVD–XT,旨在从静止图像生成短视频剪辑。
然而,到目前为止,这些最先进的模型仅开放用于研究目的。据该公司称,SVD 和 SVD–XT 都认可高保真结果,可与其他现有人工视频生成器的性能相媲美或可能超越。
Stability AI旨在从用户反馈中受益,对这些图像到视频模型进行微调,并将其开源作为研究预览的一部分。这一努力表明该公司打算为最终将这些模型应用于商业铺平道路。
公司博客文章详细介绍了 SVD 和 SVD-XT 采用潜在扩散模型来生成 576 x 1024 视频,并使用单个静态图像作为调节帧。尽管输出视频的持续时间很短(最多四秒),但这些模型可以以每秒 3 帧到每秒 30 帧的速度生成内容。具体来说,SVD 模型经过校准,可以从静止图像中导出 14 帧,而 SVD-XT 能够生成多达 25 帧。
为了创建 SVD, Stability AI依赖于一个庞大、精心策划的视频库,其中包含约 6 亿个样本。该公司使用数据库中编译的样本来训练主要模型,随后使用较小的高清数据集对该模型进行改进,以处理图像到视频和文本到视频转换等下游任务,使其能够预测来自单个调节图像的帧序列。
Stability AI发布的白皮书阐明了 SVD 作为细化扩散模型以生成多视图合成的基础的潜力,从而能够从单个静态图像生成对象的多个一致视图。
根据该公司的博客文章,这为教育、娱乐和营销等各个领域的潜在用途带来了大量的机会。
该公司披露的一个重要信息是,由人工审核员进行的外部评估显示,SVD 的输出超过了 Runway 和 Pika Labs 等竞争对手制作的首个封闭式文本到视频模型的质量。
尽管取得了初步成功, Stability AI也承认当前模型存在许多局限性。例如,这些模型有时缺乏逼真的输出、生成静态视频或难以准确复制人物形象。
但这只是他们涉足视频制作领域的开始。目前的研究预览数据将通过识别现有差距并引入新功能(例如支持视频中的文本提示或文本渲染)来帮助发展这些模型,使它们为商业应用做好准备。
鉴于涵盖广告、教育和娱乐等领域的多种应用程序的潜力,像AppMaster这样的平台(以向用户提供轻松创建移动和 Web 应用程序的工具而闻名)可能会发现稳定视频扩散是一个有用的集成。
该公司预计,对这些模型的公开调查结果将引发更多担忧(例如偏见),并有助于促进以后更安全的部署。
目前正在计划开发各种模型,以加强和扩展稳定扩散所建立的基础。
然而,这些改进何时可供用户使用仍不确定。