Дмитрий Новиков
Нейросеть VALL-E от Microsoft может подделать голос любого за 3 секунды прослушивания
На днях корпорация Microsoft представила общественности нейросеть VALL-E, которая с лёгкостью сможет подделать голос любого человека на основе отрывка записи, длительностью всего 3 секунды. Сообщается, что ИИ способен подделать не только тембр голоса, но и эмоциональную окраску оригинала.
По данным Microsoft, нейросеть опирается на технологи EnCode и представляет собой языковую модель нейронного кодека. Нейросеть анализирует, как именно звучит человеческий голос, разбивает эту последовательность на отдельные «токены» и сопоставляет эти данные с тем, что «знает». На основе этой информации ИИ и произносит любую фразу поддельным голосом.
Обучение VALL-E проходило на основе библиотеки LibriLight, содержащей в себе 60 000 часов англоязычной речи в исполнении более 7 000 человек.