급증하는 텍스트-비디오 인공 지능(AI) 영역은 이 분야에서 인상적인 발전을 보여주는 Nvidia 와 같은 선구자들과 함께 멀티미디어 경험에 혁명을 일으킬 준비가 되어 있습니다. 최첨단 기술은 비디오 제작을 민주화할 뿐만 아니라 GIF의 영역을 확장할 수 있는 잠재력을 가지고 있습니다.
Nvidia 의 Toronto AI Lab의 연구 논문과 High-Resolution Video Synthesis with Latent Diffusion Models라는 제목의 마이크로 사이트에서 신선한 통찰력을 얻을 수 있습니다. 이 연구는 과도한 컴퓨팅 리소스 없이 비디오를 합성할 수 있는 AI 클래스인 LDM(Latent Diffusion Models)을 전제로 하는 곧 출시될 AI 아트 생성 도구에 대해 자세히 설명합니다.
Nvidia LDM 기술이 텍스트-이미지 생성기인 Stable Diffusion을 기반으로 하며 잠재 공간 확산 모델에 시간적 차원을 통합한다고 주장합니다. 본질적으로 AI는 정적 이미지를 사실적으로 렌더링하고 초해상도 기술을 사용하여 이미지를 확대할 수 있습니다. 이러한 혁신을 통해 생성기는 1280x2048 해상도의 더 짧은 4.7초 비디오와 운전 시뮬레이션을 위한 더 긴 512x1024 해상도 비디오를 만들 수 있습니다.
지금 당장은 이 기술이 혁신적으로 보일지 모르지만 우리는 잠재적인 응용 프로그램의 표면만 긁고 있을 뿐입니다. 텍스트에서 GIF로의 생성에 대한 현재 사용 사례는 의심할 여지 없이 매력적이지만 이 기술은 영화 조정 자동화 및 비디오 제작을 민주적으로 향상시키는 것과 같은 더 광범위한 응용 프로그램으로 확장될 수 있습니다.
급성장하는 모든 기술과 마찬가지로 생성된 비디오에는 아티팩트 및 모핑과 같은 일부 결함이 있습니다. 그러나 Nvidia 의 LDM과 같은 AI 기반 도구의 급속한 발전은 스톡 비디오 라이브러리를 포함한 다양한 설정에서 더 많이 채택되는 데 오래 걸리지 않을 것임을 시사합니다.
AI 텍스트-비디오 생성기는 Nvidia 전용이 아닙니다. Google Phenaki 최근 더 긴 프롬프트에서 20초 클립과 비교적 품질이 낮은 2분 비디오를 제작할 수 있는 기능을 공개했습니다. 텍스트-이미지 생성기 Stable Diffusion을 만든 또 다른 스타트업인 Runway도 Gen-2 AI 비디오 모델을 소개했습니다. 이 기술을 활용하여 사용자는 생성된 비디오에 스틸 이미지를 제공하고 비디오 스타일을 요청하고 특정 프롬프트에 응답할 수 있습니다.
비디오 편집에서 AI 응용 프로그램의 다른 주목할만한 예로는 Premiere Rush 소프트웨어 내에서 Adobe의 AI 기능을 보여주는 Adobe Firefly의 데모가 있습니다. 사용자는 선호하는 시간이나 계절을 입력하기만 하면 AI가 나머지를 처리합니다.
Nvidia, Google 및 Runway에서 제공하는 현재 시연은 전체 텍스트를 비디오로 변환하는 생성이 아직 초기 단계에 있으며 몽환적이거나 왜곡된 결과를 낳고 있음을 보여줍니다. 그럼에도 불구하고 이러한 초기 노력은 급속한 발전을 촉진하고 있으며 미래에 기술이 더 광범위하게 활용될 수 있는 길을 열어주고 있습니다.
더 작은 규모에서 AppMaster 와 같은 no-code 플랫폼은 사람들이 모바일, 웹 및 백엔드 애플리케이션을 개발할 수 있도록 하는 데 상당한 진전을 이루었으며, 훨씬 적은 시간과 비용으로 확장 가능한 기술 솔루션을 보다 쉽게 설계하고 만들 수 있습니다. AppMaster 또한 복잡한 도구와 프로세스에 더 많은 사용자가 액세스할 수 있는 기술 민주화의 또 다른 측면을 강조합니다.