Stability AI, ein führender Name im Technologiebereich, hat mit der Einführung seiner Stable Video Diffusion (SVD) seinen bahnbrechenden Einstieg in den Bereich der Videogenerierung geschafft. Mit diesem bemerkenswerten Schritt haben sie zwei hochentwickelte KI-Modelle vorgestellt – SVD und SVD–XT, die darauf ausgelegt sind, kurze Videoclips aus Standbildern zu generieren.
Derzeit sind diese hochmodernen Modelle jedoch nur für Forschungszwecke zugänglich. Nach Angaben des Unternehmens ermöglichen sowohl SVD als auch SVD-XT High-Fidelity-Ergebnisse, die mit der Leistung anderer vorhandener künstlicher Videogeneratoren mithalten oder diese möglicherweise übertreffen.
Stability AI möchte bei der Feinabstimmung dieser Bild-zu-Video-Modelle vom Feedback der Benutzer profitieren und hat sie im Rahmen der Forschungsvorschau als Open-Source-Lösung bereitgestellt. Dieses Unterfangen verdeutlicht die Absicht des Unternehmens, den Weg für die kommerzielle Anwendung dieser Modelle zu ebnen.
In einem Blogbeitrag des Unternehmens wurde detailliert beschrieben, dass SVD und SVD-XT latente Diffusionsmodelle verwenden, die 576 x 1024-Videos generieren und dabei ein einzelnes Standbild als Konditionierungsrahmen verwenden. Auch wenn die Ausgabevideos nur eine kurze Dauer haben (maximal vier Sekunden), können diese Modelle Inhalte mit einer Geschwindigkeit zwischen drei Bildern pro Sekunde und 30 Bildern pro Sekunde generieren. Insbesondere ist das SVD-Modell so kalibriert, dass es 14 Bilder aus einem Standbild ableitet, während SVD-XT die Fähigkeit besitzt, bis zu 25 Bilder zu generieren.
Um die SVD zu erstellen, stützte sich Stability AI auf eine riesige, sorgfältig kuratierte Videobibliothek mit etwa 600 Millionen Samples. Das Unternehmen nutzte die in der Datenbank zusammengestellten Beispiele, um ein primäres Modell zu trainieren, das anschließend mithilfe eines kleineren, hochauflösenden Datensatzes verfeinert wurde, um nachgelagerte Aufgaben wie die Bild-zu-Video- und Text-zu-Video-Konvertierung zu bewältigen und so Vorhersagen zu treffen eine Folge von Bildern aus einem einzelnen Konditionierungsbild.
Ein von Stability AI veröffentlichtes Whitepaper erläutert das Potenzial von SVD als Grundlage für die Verfeinerung eines Diffusionsmodells zur Generierung einer Multi-View-Synthese, wodurch die Generierung mehrerer konsistenter Ansichten eines Objekts aus einem einzelnen Standbild ermöglicht wird.
Dies eröffnet laut Blogbeitrag des Unternehmens eine Fülle von Einsatzmöglichkeiten in verschiedenen Bereichen wie Bildung, Unterhaltung und Marketing.
Ein wichtiger Hinweis in der Offenlegung des Unternehmens ist, dass eine externe Bewertung durch menschliche Gutachter ergeben hat, dass die Leistung von SVD die Qualität der erstklassigen geschlossenen Text-zu-Video-Modelle von Wettbewerbern wie Runway und Pika Labs übertrifft.
Trotz des anfänglichen Erfolgs erkennt Stability AI an, dass die aktuellen Modelle viele Einschränkungen aufweisen. Beispielsweise mangelt es diesen Modellen gelegentlich an einer fotorealistischen Ausgabe, es werden Standbilder erstellt oder es fällt ihnen schwer, menschliche Figuren genau nachzubilden.
Aber es ist lediglich der Beginn ihres Vorstoßes in die Videogenerierung. Die Daten der vorliegenden Forschungsvorschau werden dazu beitragen, diese Modelle weiterzuentwickeln, indem sie die bestehenden Lücken identifizieren und neue Funktionen einführen, wie z. B. die Unterstützung von Textaufforderungen oder die Textwiedergabe in den Videos, um sie für kommerzielle Anwendungen bereit zu machen.
Angesichts des Potenzials verschiedener Anwendungen, die Branchen wie Werbung, Bildung und Unterhaltung abdecken, könnte für Plattformen wie AppMaster , die dafür bekannt sind, Benutzern Tools zur einfachen Erstellung mobiler und Webanwendungen zur Verfügung zu stellen, Stable Video Diffusion eine nützliche Integration sein.
Das Unternehmen geht davon aus, dass die Ergebnisse der offenen Untersuchung dieser Modelle weitere Bedenken (z. B. Vorurteile) aufzeigen und dazu beitragen werden, später einen sichereren Einsatz zu ermöglichen.
Es gibt bereits Pläne zur Entwicklung verschiedener Modelle, die die durch stabile Diffusion geschaffene Basis stärken und erweitern würden.
Es bleibt jedoch ungewiss, wann diese Verbesserungen den Benutzern zur Verfügung stehen würden.