YouTube új MI-funkció: szájmozgás illesztése a lefordított hangsávhoz
Az új YouTube MI a lefordított hangsávhoz igazítja a szájmozgást, természetesebb auto-dubbing élményt adva. Egyelőre 1080p-ig és 5 nyelven, hamarosan bővül.
Az új YouTube MI a lefordított hangsávhoz igazítja a szájmozgást, természetesebb auto-dubbing élményt adva. Egyelőre 1080p-ig és 5 nyelven, hamarosan bővül.
© E. Vartanyan
A YouTube tovább erősíti az MI-alapú eszközöket, hogy növelje a nézők bevonódását. Az automatikus szinkron bevezetése után most a következő lépést teszteli: a szájmozgás összehangolását a lefordított hangsávval. Kézenfekvő fejlődési irány, amelynek célja, hogy a szinkronizált videók ne toldaléknak, hanem sokkal inkább eredeti gyártásnak hassanak.
Az Auto-dubbing projektet vezető Buddika Kottahachchi szerint a technológia speciális algoritmusokra támaszkodik, amelyek pixelpontossággal igazítják a szájformákat és az arc apró mikromozgásait, hogy az eredmény a lehető legtermészetesebb legyen. A rendszer figyelembe veszi az ajkak, a fogak és az arckifejezések háromdimenziós geometriáját, működését pedig egy, a Google által fejlesztett egyedi MI-modell hajtja.
Egyelőre csak 1080p felbontásig működik, és öt nyelvet támogat: angolt, franciát, németet, portugált és spanyolt. A Google tervei szerint a kínálat 20-nál is több nyelvre bővül, beleértve mindazokat, amelyek már elérhetők a YouTube automatikus szinkronjában. A szűk kezdés óvatos rajtot jelez, amíg a technológia érlelődik — ez a tempó pedig várhatóan a minőségnek kedvez.