기술 분야의 선두주자인 Stability AI SVD(Stable Video Diffusion) 출시로 비디오 세대 영역에 획기적인 진입을 이루었습니다. 이러한 놀라운 움직임을 통해 그들은 정지 이미지에서 짧은 비디오 클립을 생성하도록 설계된 SVD와 SVD–XT라는 두 가지 고급 AI 모델을 선보였습니다.
그러나 현재로서는 이러한 최첨단 모델이 연구 목적으로만 공개되어 있습니다. 회사에 따르면 SVD와 SVD-XT는 모두 현존하는 다른 인공 비디오 생성기의 성능에 필적하거나 잠재적으로 더 뛰어난 고품질 결과를 승인합니다.
Stability AI 이러한 이미지-비디오 모델을 미세 조정하는 데 있어 사용자 피드백을 활용하여 연구 미리 보기의 일부로 오픈 소스를 제공하는 것을 목표로 합니다. 이러한 노력은 궁극적으로 이러한 모델을 상업적으로 적용할 수 있는 기반을 마련하려는 회사의 의도를 나타냅니다.
회사 블로그 게시물에서는 SVD 및 SVD-XT가 단일 정지 이미지를 조건 프레임으로 사용하여 576 x 1024 비디오를 생성하는 잠재 확산 모델을 사용한다고 자세히 설명했습니다. 출력 비디오의 지속 시간은 짧지만(최대 4초) 이러한 모델은 초당 3프레임에서 초당 30프레임 범위의 속도로 콘텐츠를 생성할 수 있습니다. 특히 SVD 모델은 정지 이미지에서 14프레임을 파생하도록 보정된 반면, SVD-XT는 최대 25프레임을 생성할 수 있는 기능을 보유하고 있습니다.
SVD를 생성하기 위해 Stability AI 약 6억 개의 샘플로 구성된 거대하고 꼼꼼하게 선별된 비디오 라이브러리에 의존했습니다. 회사는 데이터베이스에 수집된 샘플을 사용하여 기본 모델을 교육했으며, 이후 이미지-비디오 및 텍스트-비디오 변환과 같은 다운스트림 작업을 처리하기 위해 더 작은 고화질 데이터세트를 사용하여 정제되었습니다. 단일 조건화 이미지의 일련의 프레임.
Stability AI 가 발표한 백서는 다중 뷰 합성을 생성하기 위해 확산 모델을 개선하기 위한 기반으로서 SVD의 잠재력을 설명하여 단일 스틸 이미지에서 객체에 대한 여러 일관된 뷰를 생성할 수 있도록 합니다.
회사 블로그 게시물에 따르면 이는 교육, 엔터테인먼트, 마케팅 등 다양한 분야에서 잠재적으로 사용할 수 있는 수많은 기회를 열어줍니다.
회사 공개에서 중요한 점은 리뷰어가 실시한 외부 평가에서 SVD의 출력이 Runway 및 Pika Labs와 같은 경쟁업체가 제작한 프리미어 폐쇄형 텍스트-비디오 모델의 품질을 능가한다는 사실이 밝혀졌다는 것입니다.
초기 성공에도 불구하고 Stability AI 현재 모델에 많은 한계가 있음을 인정합니다. 예를 들어, 이러한 모델은 때때로 사실적인 출력이 부족하거나 스틸 비디오를 생성하거나 인물 형상을 정확하게 복제하는 데 어려움을 겪습니다.
그러나 이것은 단지 비디오 생성에 대한 그들의 모험의 시작일 뿐입니다. 현재 연구 미리 보기의 데이터는 기존 격차를 식별하고 비디오의 텍스트 프롬프트 또는 텍스트 렌더링 지원과 같은 새로운 기능을 도입하여 이러한 모델을 발전시켜 상용 응용 프로그램에 사용할 수 있도록 준비하는 데 도움이 될 것입니다.
광고, 교육 및 엔터테인먼트를 포함하되 이에 국한되지 않는 분야를 포괄하는 다양한 애플리케이션의 잠재력을 통해 사용자에게 모바일 및 웹 애플리케이션을 쉽게 만들 수 있는 도구를 제공하는 것으로 유명한 AppMaster 와 같은 플랫폼은 Stable Video Diffusion이 유용한 통합임을 찾을 수 있습니다.
회사는 이러한 모델에 대한 공개 조사 결과를 통해 편견과 같은 더 많은 우려를 표시하고 나중에 보다 안전한 배포를 촉진하는 데 도움이 될 것으로 예상합니다.
이미 안정적인 확산으로 구축된 기반을 강화하고 확장할 수 있는 다양한 모델을 개발할 계획이 진행 중입니다.
그러나 이러한 개선 사항이 언제 사용자에게 제공될지는 불확실합니다.