Danny Weber
23:39 10-02-2026
© RusPhotoBank
Fedezd fel az EPFL új AI eszközét, amely megoldja a videógeneráció időbeli koherencia problémáját, akár több perces stabil videókat készítve. Kattints a részletekért!
A Lausanne-i Svájci Szövetségi Technológiai Intézet (EPFL) kutatói bemutattak egy új, mesterséges intelligencián alapuló eszközt, amely a videógeneráció egyik kulcsproblémáját oldja meg: az időbeli koherencia elvesztését. A Stable Video Infinity (SVI) elnevezésű rendszer már felkeltette a tech-közösség figyelmét.
A jelenlegi videógenerációs modellek többsége csak néhány másodperctől fél percig tartó rövid klipet képes előállítani. A hosszabb időtartam növekedésével a képek torzulni kezdenek: a karakterek változnak, a jelenetek instabillá válnak, és a sorozat logikája megszakad. Ezt a jelenséget driftnek nevezik, és sokáig szinte elkerülhetetlennek tartották.
A Visual Intelligence for Transportation (VITA) labor csapata szokatlan megközelítést javasolt a modellek képzésében. Új módszerük – az „ismétlődő hibák újraképzése” – nem hagyja figyelmen kívül a videógeneráció során fellépő hibákat, hanem szándékosan visszavezeti ezeket a zavarokat a tanulási folyamatba. Gyakorlatilag ez azt jelenti, hogy az MI megtanulja kezelni saját torzulásait.
A projekt vezetője, Alexander Alahi professzor a megközelítést egy pilóta képzéséhez hasonlítja erős turbulenciában. A hibákból való tanulás robusztusabbá teszi a rendszert, és lehetővé teszi a stabilitás fenntartását a hosszabb generáció során is. Ez az elv képezi a Stable Video Infinity alapját. A meglévő megoldásoktól eltérően, amelyek gyakran 20–30 másodperc után romlanak, az SVI koherens és részletes, akár több perces vagy annál hosszabb videókat is képes létrehozni.
A csapat bemutatta a LayerSync módszert is, amely segíti az MI-t a belső logika szinkronizálásában videóval, képekkel és hanggal való munka során. Együtt ezek a technológiák utat nyitnak a megbízhatóbb autonóm rendszerek és a nagyméretű generatív média felé. A projekt már nyílt forráskódú a GitHubon, ahol több mint 2000 csillagot szerzett, és a kutatást az ICLR 2026 konferencián mutatták be, kiemelve jelentőségét a generatív technológiák jövője szempontjából.