Stable Video Infinity: uusi tekoälytyökalu pitkiin videoihin

EPFL:n (Lausannen teknillinen korkeakoulu) tutkijat ovat esitelleet uuden tekoälypohjaisen työkalun, joka ratkaisee videogeneroinnin keskeisen haasteen: aikajohdonmukaisuuden katoamisen. Järjestelmä, nimeltään Stable Video Infinity (SVI), on jo herättänyt teknologiamaailmassa kiinnostusta.

Nykyiset videogenerointimallit tuottavat yleensä vain lyhyitä pätkiä, jotka kestävät muutamasta sekunnista noin puoleen minuuttiin. Kun videon pituus kasvaa, kuvat alkavat vääristyä: hahmot muuttuvat, kohtaukset muuttuvat epävakaiksi ja sekvenssin logiikka hajoaa. Tätä ilmiötä, jota kutsutaan ajallisesti hajoavaksi vääristymäksi, on pidetty lähes väistämättömänä.

VITA-laboratorion (Visual Intelligence for Transportation) tiimi ehdotti mallien kouluttamiseen epätavanomaista lähestymistapaa. Sen uusi menetelmä, nimeltään toistuva virheiden uudelleenkoulutus, ei jätä huomiotta videogeneroinnissa syntyviä virheitä vaan tuottaa niitä tarkoituksellisesti oppimisprosessiin uudelleen. Käytännössä tämä tarkoittaa, että tekoäly oppii käsittelemään omia vääristymiään.

Projektin johtaja professori Alexander Alahi vertaa lähestymistapaa lentäjän kouluttamiseen voimakkaassa turbulenssissa. Virheistä oppiminen tekee järjestelmästä vankemman ja mahdollistaa stabiilisuuden säilymisen pidempienkin generointien aikana. Tämä periaate on Stable Video Infinityn perusta. Toisin kuin nykyiset ratkaisut, jotka usein heikkenevät 20–30 sekunnin jälkeen, SVI voi luoda johdonmukaisia ja yksityiskohtaisia videoita, jotka kestävät useita minuutteja tai pidempään.

Tiimi esitteli myös LayerSync-menetelmän, joka auttaa tekoälyä synkronoimaan sisäistä logiikkaa videoiden, kuvien ja äänen kanssa työskennellessään. Yhdessä nämä teknologiat avaavat tien luotettavammille autonomisille järjestelmille ja laajamittaiselle generatiiviselle medialle. Projekti on jo avoimen lähdekoodin GitHubissa, missä se on saanut yli 2 000 tähteä, ja tutkimus esiteltiin ICLR 2026 -konferenssissa, mikä korostaa sen merkitystä generatiivisten teknologioiden tulevaisuudelle.