Stable Video Infinity: Neue KI-Methode für stabile Videogenerierung

Forschende der Eidgenössischen Technischen Hochschule Lausanne (EPFL) haben ein neues KI-basiertes Werkzeug vorgestellt, das ein zentrales Problem der Videogenerierung angeht: den Verlust zeitlicher Kohärenz. Das System namens Stable Video Infinity (SVI) hat bereits die Aufmerksamkeit der Tech-Community auf sich gezogen.

Die meisten aktuellen Modelle für die Videogenerierung können nur kurze Clips von wenigen Sekunden bis etwa einer halben Minute erzeugen. Bei längerer Dauer beginnen sich die Bilder zu verzerren: Charaktere verändern sich, Szenen werden instabil und die Logik der Abfolge bricht zusammen. Dieser als Drift bekannte Effekt galt lange als fast unvermeidlich.

Das Team des Visual Intelligence for Transportation (VITA) Lab schlug einen unkonventionellen Ansatz für das Training von Modellen vor. Statt Fehler, die bei der Videogenerierung entstehen, zu ignorieren, führt ihre neue Methode – „recurrent error retraining“ – diese Störungen gezielt wieder in den Lernprozess ein. In der Praxis bedeutet das, dass die KI lernt, mit ihren eigenen Verzerrungen umzugehen.

Projektleiter Professor Alexander Alahi vergleicht den Ansatz mit der Ausbildung eines Piloten bei schwerer Turbulenz. Das Lernen aus Fehlern macht das System robuster und ermöglicht es, auch bei längerer Generierung die Stabilität aufrechtzuerhalten. Dieses Prinzip liegt Stable Video Infinity zugrunde. Im Gegensatz zu bestehenden Lösungen, die oft nach 20–30 Sekunden nachlassen, kann SVI kohärente und detaillierte Videos von mehreren Minuten oder länger erzeugen.

Das Team führte zudem die LayerSync-Methode ein, die der KI hilft, interne Logik bei der Arbeit mit Video, Bildern und Audio zu synchronisieren. Gemeinsam ebnen diese Technologien den Weg für zuverlässigere autonome Systeme und groß angelegte generative Medien. Das Projekt ist bereits Open-Source auf GitHub verfügbar, wo es über 2.000 Sterne gesammelt hat, und die Forschung wurde auf der ICLR 2026-Konferenz vorgestellt, was ihre Bedeutung für die Zukunft generativer Technologien unterstreicht.