YouTube bringt KI-Lippensynchronisation: natürlicheres Auto-Dubbing in fünf Sprachen

YouTube treibt KI-gestützte Werkzeuge voran, um die Zuschauerbindung zu erhöhen. Nach der Einführung der automatischen Synchronisation testet die Plattform nun den nächsten Schritt: die Lippenbewegungen mit der übersetzten Tonspur abzugleichen. Das wirkt wie eine folgerichtige Weiterentwicklung, die synchronisierte Videos weniger wie einen Zusatz und mehr wie originäre Produktionen erscheinen lassen soll.

Nach Angaben von Auto-Dubbing-Leiter Buddika Kottahachchi stützt sich die Technik auf spezialisierte Algorithmen, die Mundformen und feinste Gesichtsmikrobewegungen bis auf Pixel-Ebene anpassen, damit das Ergebnis möglichst natürlich wirkt. Das System berücksichtigt die dreidimensionale Geometrie von Lippen, Zähnen und Mimik und wird von einem eigens entwickelten KI-Modell von Google angetrieben.

Vorerst funktioniert die Funktion nur bei Videos bis 1080p und unterstützt fünf Sprachen: Englisch, Französisch, Deutsch, Portugiesisch und Spanisch. Google plant, das Angebot auf mehr als 20 Sprachen auszubauen, darunter alle, die bereits beim Auto-Dubbing von YouTube verfügbar sind. Der begrenzte Umfang wirkt wie ein bewusst vorsichtiger Start, während die Technik reift.

Zum Auftakt ist die Funktion nur für eine kleine Gruppe von Creatorn verfügbar – ähnlich wie in den frühen Tagen des Auto-Dubbings. Ein breiterer Zugang wird später erwartet, und Kanalbetreiber können dann entscheiden, ob sie die Lippensynchronisation für ihre Videos aktivieren. Im Gespräch ist zudem, dass die Option kostenpflichtig sein könnte; offen bleibt, ob die Rechnung bei den Kanalbetreibern oder beim Publikum landet. Gelingt die Umsetzung so, wie sie angekündigt ist, dürften Zuschauende weniger die Synchronisation bemerken und sich stärker auf die Geschichte einlassen.