Stable Video Infinity：長時間の一貫性あるAI映像生成を実現

Danny Weber

23:42 10-02-2026

EPFLの研究者が発表したStable Video Infinityは、再帰的エラー再学習とLayerSync技術により、数分以上の安定した映像生成を可能にします。時間的整合性の喪失という課題を克服した画期的なAIツールです。

スイス連邦工科大学ローザンヌ校（EPFL）の研究者が、映像生成における重要な課題である時間的整合性の喪失を解決する新たなAIツールを発表した。この「Stable Video Infinity（SVI）」と呼ばれるシステムは、既に技術コミュニティの注目を集めている。

現在主流の映像生成モデルは、数秒から約30秒程度の短いクリップしか生成できない。再生時間が長くなると、画像は歪み始める。登場人物が変化し、シーンが不安定になり、シーケンスの論理が崩壊するのだ。この「ドリフト」現象は、長らくほぼ避けられないものと考えられてきた。

交通向け視覚知能（VITA）研究室チームは、モデルの学習に従来とは異なるアプローチを提案した。映像生成中に生じるエラーを無視するのではなく、彼らの新手法「再帰的エラー再学習」は、意図的にこれらの不具合を学習プロセスに再導入する。実際には、AIが自ら生み出した歪みを処理する方法を学ぶことを意味する。

プロジェクトリーダーのアレクサンダー・アラヒ教授は、このアプローチを激しい乱気流の中でパイロットを訓練することに例えている。エラーから学ぶことで、システムはより堅牢になり、長時間の生成中でも安定性を維持できるようになる。この原理がStable Video Infinityの基盤だ。既存のソリューションは20〜30秒後に品質が劣化することが多いが、SVIは数分以上にわたる一貫性のある詳細な映像を作成できる。

チームはまた、AIが映像、画像、音声を扱う際に内部ロジックを同期させる「LayerSync」手法も導入した。これらの技術が組み合わさることで、より信頼性の高い自律システムと大規模生成メディアへの道が開かれる。実際、このプロジェクトはGitHubでオープンソース化されており、2,000以上のスターを獲得している。研究はICLR 2026カンファレンスで発表され、生成技術の将来にとっての重要性が強調された。