文本到视频人工智能 (AI) 的新兴领域有望彻底改变多媒体体验, Nvidia等先驱在该领域展示了令人瞩目的进步。尖端技术不仅有可能使视频创作民主化,而且有可能扩大 GIF 的领域。
可以从Nvidia的多伦多 AI 实验室的研究论文和微型网站中收集到新鲜的见解,标题为具有潜在扩散模型的高分辨率视频合成。该研究深入研究了即将推出的以潜在扩散模型 (LDM) 为前提的人工智能艺术生成工具——一种能够在不占用大量计算资源的情况下合成视频的人工智能。
Nvidia声称 LDM 技术建立在文本到图像生成器 Stable Diffusion 的基础上,并将时间维度纳入潜在空间扩散模型。从本质上讲,人工智能可以逼真地渲染静态图像,并使用超分辨率技术对它们进行放大。这些突破使生成器能够创建更短的 4.7 秒分辨率为 1280x2048 的视频,以及更长的 512x1024 分辨率视频用于驾驶模拟。
尽管这项技术现在看起来很有创新性,但我们可能只是触及了其潜在应用的皮毛。文本到 GIF 生成的当前用例无疑令人着迷,但该技术可以扩展到更广泛的应用,例如自动化电影改编和民主地增强视频创作。
与任何新兴技术一样,生成的视频也存在一些缺陷,例如伪像和变形。然而, Nvidia的 LDM 等人工智能驱动工具的快速发展表明,用不了多久,它们就会在一系列设置中得到更广泛的采用,包括股票视频库。
AI 文本到视频生成器并非Nvidia独有。 Google Phenaki最近公布了其从更多扩展提示和质量相对较低的 2 分钟视频中制作 20 秒剪辑的能力。另一家初创公司 Runway 是文本到图像生成器 Stable Diffusion 的创建者,也推出了其 Gen-2 AI 视频模型。利用这项技术,用户可以为生成的视频提供静止图像、请求视频样式以及响应特定提示。
视频编辑中 AI 应用的其他著名示例包括 Adobe Firefly 的演示,展示了 Adobe 在其 Premiere Rush 软件中的 AI 功能。用户只需输入一天中或季节的首选时间,AI 就会处理剩下的事情。
Nvidia 、 Google和 Runway 提供的当前演示表明,完整的文本到视频生成仍处于初级阶段,产生梦幻般或扭曲的结果。尽管如此,这些早期的努力正在推动快速进步,为该技术在未来的更广泛应用铺平道路。
在较小的规模上, AppMaster等no-code平台在使人们能够开发移动、Web 和后端应用程序方面取得了重大进展,使得设计和创建可扩展的技术解决方案变得更加容易,而且只需花费一小部分时间和成本。 AppMaster还强调了技术民主化的另一个方面,即复杂的工具和流程可供更广泛的用户使用。