Stability AI, ведущая компания в области технологий, совершила новаторский шаг в области создания видео, выпустив Stable Video Diffusion (SVD). Благодаря этому замечательному шагу они продемонстрировали две передовые модели искусственного интеллекта — SVD и SVD–XT, предназначенные для создания коротких видеоклипов из неподвижных изображений.
Однако на данный момент эти современные модели открыты только для исследовательских целей. По данным компании, и SVD, и SVD-XT обеспечивают высококачественные результаты, которые конкурируют или потенциально превосходят производительность других существующих искусственных видеогенераторов.
Stability AI стремится извлечь выгоду из отзывов пользователей при тонкой настройке этих моделей преобразования изображения в видео, выложив их в открытый доступ в рамках предварительного исследования. Это начинание означает намерение компании проложить путь к коммерческому применению этих моделей.
В сообщении в блоге компании подробно описано, что SVD и SVD-XT используют модели скрытой диффузии, которые генерируют видео с разрешением 576 x 1024, используя одно неподвижное изображение в качестве условного кадра. Несмотря на то, что выходные видео короткие по продолжительности (максимум четыре секунды), эти модели могут генерировать контент со скоростью от трех до 30 кадров в секунду. В частности, модель SVD откалибрована для получения 14 кадров из неподвижного изображения, тогда как SVD-XT способна генерировать до 25 кадров.
При создании SVD Stability AI использовала огромную, тщательно подобранную видеотеку, состоящую примерно из 600 миллионов образцов. Компания использовала образцы, собранные в базе данных, для обучения первичной модели, которая впоследствии была уточнена с использованием меньшего набора данных высокого разрешения для решения последующих задач, таких как преобразование изображения в видео и текста в видео, что позволило ей прогнозировать последовательность кадров из единственного условного изображения.
Технический документ, выпущенный Stability AI, раскрывает потенциал SVD как основы для уточнения модели диффузии для создания синтеза нескольких изображений, что позволяет генерировать несколько согласованных изображений объекта из одного неподвижного изображения.
Согласно сообщению в блоге компании, это открывает множество возможностей для потенциального использования в различных секторах, таких как образование, развлечения и маркетинг.
Важным примечанием в раскрытии информации компании является то, что внешняя оценка, проведенная рецензентами, показала, что продукция SVD превосходит качество премьерных моделей закрытого преобразования текста в видео, производимых конкурентами, такими как Runway и Pika Labs.
Несмотря на первоначальный успех, Stability AI признает, что текущие модели имеют множество ограничений. Например, этим моделям иногда не хватает фотореалистичности, они создают неподвижные видеоролики или не могут точно воспроизвести человеческие фигуры.
Но это всего лишь начало их пути к созданию видео. Данные настоящего предварительного исследования помогут развивать эти модели, выявляя существующие пробелы и вводя новые функции, такие как поддержка текстовых подсказок или рендеринг текста в видеороликах, что делает их готовыми для коммерческого применения.
Учитывая потенциал разнообразных приложений, охватывающих сектора, включая, помимо прочего, рекламу, образование и развлечения, такие платформы, как AppMaster , известные тем, что предоставляют пользователям инструменты для легкого создания мобильных и веб-приложений, могут найти Stable Video Diffusion полезной интеграцией.
Компания предполагает, что результаты открытого расследования этих моделей выявят больше проблем (например, предвзятости) и помогут обеспечить более безопасное развертывание в дальнейшем.
Уже сейчас разрабатываются планы по разработке множества моделей, которые укрепят и расширят базу, созданную путем стабильной диффузии.
Однако остается неясным, когда эти улучшения станут доступны пользователям.