Grow with AppMaster Grow with AppMaster.
Become our partner arrow ico

Stability AI представляет многообещающие модели создания видео

Stability AI представляет многообещающие модели создания видео

Stability AI, ведущая компания в области технологий, совершила новаторский шаг в области создания видео, выпустив Stable Video Diffusion (SVD). Благодаря этому замечательному шагу они продемонстрировали две передовые модели искусственного интеллекта — SVD и SVD–XT, предназначенные для создания коротких видеоклипов из неподвижных изображений.

Однако на данный момент эти современные модели открыты только для исследовательских целей. По данным компании, и SVD, и SVD-XT обеспечивают высококачественные результаты, которые конкурируют или потенциально превосходят производительность других существующих искусственных видеогенераторов.

Stability AI стремится извлечь выгоду из отзывов пользователей при тонкой настройке этих моделей преобразования изображения в видео, выложив их в открытый доступ в рамках предварительного исследования. Это начинание означает намерение компании проложить путь к коммерческому применению этих моделей.

В сообщении в блоге компании подробно описано, что SVD и SVD-XT используют модели скрытой диффузии, которые генерируют видео с разрешением 576 x 1024, используя одно неподвижное изображение в качестве условного кадра. Несмотря на то, что выходные видео короткие по продолжительности (максимум четыре секунды), эти модели могут генерировать контент со скоростью от трех до 30 кадров в секунду. В частности, модель SVD откалибрована для получения 14 кадров из неподвижного изображения, тогда как SVD-XT способна генерировать до 25 кадров.

При создании SVD Stability AI использовала огромную, тщательно подобранную видеотеку, состоящую примерно из 600 миллионов образцов. Компания использовала образцы, собранные в базе данных, для обучения первичной модели, которая впоследствии была уточнена с использованием меньшего набора данных высокого разрешения для решения последующих задач, таких как преобразование изображения в видео и текста в видео, что позволило ей прогнозировать последовательность кадров из единственного условного изображения.

Технический документ, выпущенный Stability AI, раскрывает потенциал SVD как основы для уточнения модели диффузии для создания синтеза нескольких изображений, что позволяет генерировать несколько согласованных изображений объекта из одного неподвижного изображения.

Согласно сообщению в блоге компании, это открывает множество возможностей для потенциального использования в различных секторах, таких как образование, развлечения и маркетинг.

Важным примечанием в раскрытии информации компании является то, что внешняя оценка, проведенная рецензентами, показала, что продукция SVD превосходит качество премьерных моделей закрытого преобразования текста в видео, производимых конкурентами, такими как Runway и Pika Labs.

Несмотря на первоначальный успех, Stability AI признает, что текущие модели имеют множество ограничений. Например, этим моделям иногда не хватает фотореалистичности, они создают неподвижные видеоролики или не могут точно воспроизвести человеческие фигуры.

Но это всего лишь начало их пути к созданию видео. Данные настоящего предварительного исследования помогут развивать эти модели, выявляя существующие пробелы и вводя новые функции, такие как поддержка текстовых подсказок или рендеринг текста в видеороликах, что делает их готовыми для коммерческого применения.

Учитывая потенциал разнообразных приложений, охватывающих сектора, включая, помимо прочего, рекламу, образование и развлечения, такие платформы, как AppMaster , известные тем, что предоставляют пользователям инструменты для легкого создания мобильных и веб-приложений, могут найти Stable Video Diffusion полезной интеграцией.

Компания предполагает, что результаты открытого расследования этих моделей выявят больше проблем (например, предвзятости) и помогут обеспечить более безопасное развертывание в дальнейшем.

Уже сейчас разрабатываются планы по разработке множества моделей, которые укрепят и расширят базу, созданную путем стабильной диффузии.

Однако остается неясным, когда эти улучшения станут доступны пользователям.

Похожие статьи

Samsung представляет Galaxy A55 с инновационной системой безопасности и премиальной сборкой
Samsung представляет Galaxy A55 с инновационной системой безопасности и премиальной сборкой
Samsung расширяет свою линейку устройств среднего класса, представляя Galaxy A55 и A35 с системой безопасности Knox Vault и обновленными элементами дизайна, которые придают этому сегменту флагманские качества.
Cloudflare представляет брандмауэр для искусственного интеллекта, защищающий большие языковые модели
Cloudflare представляет брандмауэр для искусственного интеллекта, защищающий большие языковые модели
Cloudflare выходит вперед, предлагая Firewall for AI, усовершенствованный WAF, предназначенный для упреждающего выявления и предотвращения потенциальных злоупотреблений, направленных на модели большого языка.
ChatGPT от OpenAI теперь говорит: будущее голосового интерактивного искусственного интеллекта
ChatGPT от OpenAI теперь говорит: будущее голосового интерактивного искусственного интеллекта
ChatGPT достиг важной функции благодаря развертыванию голосовых возможностей OpenAI. Теперь пользователи могут общаться без помощи рук, поскольку ChatGPT читает ответы вслух на iOS, Android и в Интернете.
Начните бесплатно
Хотите попробовать сами?

Лучший способ понять всю мощь AppMaster - это увидеть все своими глазами. Создайте собственное приложение за считанные минуты с бесплатной подпиской AppMaster

Воплотите свои идеи в жизнь