Grow with AppMaster Grow with AppMaster.
Become our partner arrow ico

Stabilitäts-KI stellt vielversprechende Modelle zur Videogenerierung vor

Stabilitäts-KI stellt vielversprechende Modelle zur Videogenerierung vor

Stability AI, ein führender Name im Technologiebereich, hat mit der Einführung seiner Stable Video Diffusion (SVD) seinen bahnbrechenden Einstieg in den Bereich der Videogenerierung geschafft. Mit diesem bemerkenswerten Schritt haben sie zwei hochentwickelte KI-Modelle vorgestellt – SVD und SVD–XT, die darauf ausgelegt sind, kurze Videoclips aus Standbildern zu generieren.

Derzeit sind diese hochmodernen Modelle jedoch nur für Forschungszwecke zugänglich. Nach Angaben des Unternehmens ermöglichen sowohl SVD als auch SVD-XT High-Fidelity-Ergebnisse, die mit der Leistung anderer vorhandener künstlicher Videogeneratoren mithalten oder diese möglicherweise übertreffen.

Stability AI möchte bei der Feinabstimmung dieser Bild-zu-Video-Modelle vom Feedback der Benutzer profitieren und hat sie im Rahmen der Forschungsvorschau als Open-Source-Lösung bereitgestellt. Dieses Unterfangen verdeutlicht die Absicht des Unternehmens, den Weg für die kommerzielle Anwendung dieser Modelle zu ebnen.

In einem Blogbeitrag des Unternehmens wurde detailliert beschrieben, dass SVD und SVD-XT latente Diffusionsmodelle verwenden, die 576 x 1024-Videos generieren und dabei ein einzelnes Standbild als Konditionierungsrahmen verwenden. Auch wenn die Ausgabevideos nur eine kurze Dauer haben (maximal vier Sekunden), können diese Modelle Inhalte mit einer Geschwindigkeit zwischen drei Bildern pro Sekunde und 30 Bildern pro Sekunde generieren. Insbesondere ist das SVD-Modell so kalibriert, dass es 14 Bilder aus einem Standbild ableitet, während SVD-XT die Fähigkeit besitzt, bis zu 25 Bilder zu generieren.

Um die SVD zu erstellen, stützte sich Stability AI auf eine riesige, sorgfältig kuratierte Videobibliothek mit etwa 600 Millionen Samples. Das Unternehmen nutzte die in der Datenbank zusammengestellten Beispiele, um ein primäres Modell zu trainieren, das anschließend mithilfe eines kleineren, hochauflösenden Datensatzes verfeinert wurde, um nachgelagerte Aufgaben wie die Bild-zu-Video- und Text-zu-Video-Konvertierung zu bewältigen und so Vorhersagen zu treffen eine Folge von Bildern aus einem einzelnen Konditionierungsbild.

Ein von Stability AI veröffentlichtes Whitepaper erläutert das Potenzial von SVD als Grundlage für die Verfeinerung eines Diffusionsmodells zur Generierung einer Multi-View-Synthese, wodurch die Generierung mehrerer konsistenter Ansichten eines Objekts aus einem einzelnen Standbild ermöglicht wird.

Dies eröffnet laut Blogbeitrag des Unternehmens eine Fülle von Einsatzmöglichkeiten in verschiedenen Bereichen wie Bildung, Unterhaltung und Marketing.

Ein wichtiger Hinweis in der Offenlegung des Unternehmens ist, dass eine externe Bewertung durch menschliche Gutachter ergeben hat, dass die Leistung von SVD die Qualität der erstklassigen geschlossenen Text-zu-Video-Modelle von Wettbewerbern wie Runway und Pika Labs übertrifft.

Trotz des anfänglichen Erfolgs erkennt Stability AI an, dass die aktuellen Modelle viele Einschränkungen aufweisen. Beispielsweise mangelt es diesen Modellen gelegentlich an einer fotorealistischen Ausgabe, es werden Standbilder erstellt oder es fällt ihnen schwer, menschliche Figuren genau nachzubilden.

Aber es ist lediglich der Beginn ihres Vorstoßes in die Videogenerierung. Die Daten der vorliegenden Forschungsvorschau werden dazu beitragen, diese Modelle weiterzuentwickeln, indem sie die bestehenden Lücken identifizieren und neue Funktionen einführen, wie z. B. die Unterstützung von Textaufforderungen oder die Textwiedergabe in den Videos, um sie für kommerzielle Anwendungen bereit zu machen.

Angesichts des Potenzials verschiedener Anwendungen, die Branchen wie Werbung, Bildung und Unterhaltung abdecken, könnte für Plattformen wie AppMaster , die dafür bekannt sind, Benutzern Tools zur einfachen Erstellung mobiler und Webanwendungen zur Verfügung zu stellen, Stable Video Diffusion eine nützliche Integration sein.

Das Unternehmen geht davon aus, dass die Ergebnisse der offenen Untersuchung dieser Modelle weitere Bedenken (z. B. Vorurteile) aufzeigen und dazu beitragen werden, später einen sichereren Einsatz zu ermöglichen.

Es gibt bereits Pläne zur Entwicklung verschiedener Modelle, die die durch stabile Diffusion geschaffene Basis stärken und erweitern würden.

Es bleibt jedoch ungewiss, wann diese Verbesserungen den Benutzern zur Verfügung stehen würden.

Verwandte Beiträge

AppMaster auf der BubbleCon 2024: No-Code-Trends erkunden
AppMaster auf der BubbleCon 2024: No-Code-Trends erkunden
AppMaster nahm an der BubbleCon 2024 in NYC teil, gewann Erkenntnisse, erweiterte Netzwerke und erkundete Möglichkeiten, Innovationen im Bereich der No-Code-Entwicklung voranzutreiben.
FFDC 2024-Zusammenfassung: Wichtige Erkenntnisse von der FlutterFlow Developers Conference in NYC
FFDC 2024-Zusammenfassung: Wichtige Erkenntnisse von der FlutterFlow Developers Conference in NYC
FFDC 2024 erleuchtete New York City und brachte Entwicklern modernste Einblicke in die App-Entwicklung mit FlutterFlow. Mit von Experten geleiteten Sitzungen, exklusiven Updates und unübertroffenem Networking war es ein Event, das man nicht verpassen sollte!
Entlassungen im Technologiesektor im Jahr 2024: Die anhaltende Welle, die sich auf Innovationen auswirkt
Entlassungen im Technologiesektor im Jahr 2024: Die anhaltende Welle, die sich auf Innovationen auswirkt
Da in 254 Unternehmen, darunter Giganten wie Tesla und Amazon, 60.000 Stellen abgebaut werden, wird es im Jahr 2024 eine anhaltende Entlassungswelle in der Technologiebranche geben, die die Innovationslandschaft neu gestalten wird.
STARTEN SIE KOSTENLOS
Inspiriert, dies selbst auszuprobieren?

Der beste Weg, die Leistungsfähigkeit von AppMaster zu verstehen, besteht darin, es selbst zu sehen. Erstellen Sie Ihre eigene Anwendung in wenigen Minuten mit einem kostenlosen Abonnement

Erwecken Sie Ihre Ideen zum Leben