Stable Video Infinity résout la perte de cohérence en génération vidéo

Danny Weber

23:30 10-02-2026

© RusPhotoBank

Découvrez Stable Video Infinity, une IA de l'EPFL qui génère des vidéos cohérentes sur plusieurs minutes grâce à l'apprentissage par erreur récurrente.

Des chercheurs de l'École polytechnique fédérale de Lausanne (EPFL) ont dévoilé un nouvel outil basé sur l'intelligence artificielle pour résoudre un défi majeur de la génération vidéo : la perte de cohérence temporelle. Baptisé Stable Video Infinity (SVI), ce système a déjà retenu l'attention de la communauté technologique.

La plupart des modèles actuels de génération vidéo ne produisent que de courts clips, de quelques secondes à une trentaine de secondes environ. Lorsque la durée augmente, les images commencent à se déformer : les personnages changent, les scènes deviennent instables et la logique de la séquence se brise. Appelé « drift », cet effet a longtemps été considéré comme presque inévitable.

L'équipe du laboratoire Visual Intelligence for Transportation (VITA) a proposé une approche non conventionnelle pour entraîner les modèles. Au lieu d'ignorer les erreurs qui surviennent lors de la génération vidéo, leur nouvelle méthode, « réentraînement par erreur récurrente », réintroduit délibérément ces anomalies dans le processus d'apprentissage. En pratique, cela signifie que l'IA apprend à gérer ses propres distorsions.

Le professeur Alexander Alahi, responsable du projet, compare cette approche à l'entraînement d'un pilote en conditions de forte turbulence. Apprendre des erreurs rend le système plus robuste et lui permet de maintenir la stabilité même lors de générations prolongées. Ce principe est au cœur de Stable Video Infinity. Contrairement aux solutions existantes, qui se dégradent souvent après 20 à 30 secondes, SVI peut créer des vidéos cohérentes et détaillées durant plusieurs minutes ou plus.

L'équipe a également introduit la méthode LayerSync, qui aide l'IA à synchroniser sa logique interne lorsqu'elle travaille avec la vidéo, les images et l'audio. Ensemble, ces technologies ouvrent la voie à des systèmes autonomes plus fiables et à des médias génératifs à grande échelle. Le projet est déjà open-source sur GitHub, où il a recueilli plus de 2 000 étoiles, et la recherche a été présentée à la conférence ICLR 2026, soulignant son importance pour l'avenir des technologies génératives.