YouTube test AI-gestuurde lipsync: lipbewegingen volgen vertaalde audio
Slimme AI van YouTube laat lipbewegingen meelopen met automatisch nagesynchroniseerde audio. Werkt tot 1080p en in 5 talen; geloofwaardigere video's. Nu in test.
Slimme AI van YouTube laat lipbewegingen meelopen met automatisch nagesynchroniseerde audio. Werkt tot 1080p en in 5 talen; geloofwaardigere video's. Nu in test.
© E. Vartanyan
YouTube zet vaart achter AI-gestuurde tools om kijkers beter te betrekken. Na de introductie van automatische nasynchronisatie test het platform nu de volgende stap: lipbewegingen laten meelopen met het vertaalde audiospoor. Het voelt als een logische evolutie die nasynchroniseerde video’s minder als losse toevoeging en meer als volwaardige, oorspronkelijke producties wil laten overkomen.
Volgens auto-dubbing-lead Buddika Kottahachchi leunt de technologie op gespecialiseerde algoritmen die mondvormen en microbewegingen in het gezicht tot op pixelniveau bijstellen, zodat het resultaat zo natuurlijk mogelijk oogt. Het systeem houdt rekening met de driedimensionale geometrie van lippen, tanden en gezichtsuitdrukkingen en draait op een door Google ontwikkeld, op maat gemaakt AI-model. Daarmee wordt duidelijk ingezet op geloofwaardige, subtiele visuele details.
Voorlopig werkt de functie alleen met video’s tot 1080p en ondersteunt ze vijf talen: Engels, Frans, Duits, Portugees en Spaans. Google wil dat uitbreiden naar meer dan twintig talen, inclusief alle talen die al beschikbaar zijn in YouTubes automatische nasynchronisatie. Die beperkte reikwijdte wijst op een behoedzame uitrol terwijl de techniek verder rijpt.