Разное

Microsoft выпустила инструмент, который сможет подделать любой голос в считанные секунды

Microsoft выпустила инструмент, который сможет подделать любой голос в считанные секунды
Фото: Toby Scott / Keystone Press Agency / Global Look Press

На днях корпорация Microsoft представила общественности нейросеть VALL-E, которая с лёгкостью сможет подделать голос любого человека на основе отрывка записи, длительностью всего 3 секунды. Сообщается, что ИИ способен подделать не только тембр голоса, но и эмоциональную окраску оригинала.

По данным Microsoft, нейросеть опирается на технологи EnCode и представляет собой языковую модель нейронного кодека. Нейросеть анализирует, как именно звучит человеческий голос, разбивает эту последовательность на отдельные «токены» и сопоставляет эти данные с тем, что «знает». На основе этой информации ИИ и произносит любую фразу поддельным голосом.

Обучение VALL-E проходило на основе библиотеки LibriLight, содержащей в себе 60 000 часов англоязычной речи в исполнении более 7 000 человек.