Nvidia 的 LDM 技术提升了 AI 驱动的 GIF,开创了文本到视频生成器
Nvidia 的创新 LDM 技术有望彻底改变多媒体体验,将 AI 驱动的 GIF 领域提升到新的高度,并在此过程中预示着文本到视频生成器的新时代。

文本到视频人工智能 (AI) 的新兴领域有望彻底改变多媒体体验, Nvidia等先驱在该领域展示了令人瞩目的进步。尖端技术不仅有可能使视频创作民主化,而且有可能扩大 GIF 的领域。
可以从Nvidia的多伦多 AI 实验室的研究论文和微型网站中收集到新鲜的见解,标题 为具有潜在扩散模型的高分辨率视频合成。该研究深入研究了即将推出的以潜在扩散模型 (LDM) 为前提的人工智能艺术生成工具——一种能够在不占用大量计算资源的情况下合成视频的人工智能。
Nvidia声称 LDM 技术建立在文本到图像生成器 Stable Diffusion 的基础上,并将时间维度纳入潜在空间扩散模型。从本质上讲,人工智能可以逼真地渲染静态图像,并使用超分辨率技术对它们进行放大。这些突破使生成器能够创建更短的 4.7 秒分辨率为 1280x2048 的视频,以及更长的 512x1024 分辨率视频用于驾驶模拟。
尽管这项技术现在看起来很有创新性,但我们可能只是触及了其潜在应用的皮毛。文本到 GIF 生成的当前用例无疑令人着迷,但该技术可以扩展到更广泛的应用,例如自动化电影改编和民主地增强视频创作。
与任何新兴技术一样,生成的视频也存在一些缺陷,例如伪像和变形。然而, Nvidia的 LDM 等人工智能驱动工具的快速发展表明,用不了多久,它们就会在一系列设置中得到更广泛的采用,包括股票视频库。
AI 文本到视频生成器并非Nvidia独有。 Google Phenaki最近公布了其从更多扩展提示和质量相对较低的 2 分钟视频中制作 20 秒剪辑的能力。另一家初创公司 Runway 是文本到图像生成器 Stable Diffusion 的创建者,也推出了其 Gen-2 AI 视频模型。利用这项技术,用户可以为生成的视频提供静止图像、请求视频样式以及响应特定提示。
视频编辑中 AI 应用的其他著名示例包括 Adobe Firefly 的演示,展示了 Adobe 在其 Premiere Rush 软件中的 AI 功能。用户只需输入一天中或季节的首选时间,AI 就会处理剩下的事情。
Nvidia 、 Google和 Runway 提供的当前演示表明,完整的文本到视频生成仍处于初级阶段,产生梦幻般或扭曲的结果。尽管如此,这些早期的努力正在推动快速进步,为该技术在未来的更广泛应用铺平道路。
在较小的规模上, AppMaster等no-code平台在使人们能够开发移动、Web 和后端应用程序方面取得了重大进展,使得设计和创建可扩展的技术解决方案变得更加容易,而且只需花费一小部分时间和成本。 AppMaster还强调了技术民主化的另一个方面,即复杂的工具和流程可供更广泛的用户使用。


