Microsoft выпустила инструмент, который сможет подделать любой голос в считанные секунды

Дмитрий Новиков

Нейросеть VALL-E от Microsoft может подделать голос любого за 3 секунды прослушивания

На днях корпорация Microsoft представила общественности нейросеть VALL-E, которая с лёгкостью сможет подделать голос любого человека на основе отрывка записи, длительностью всего 3 секунды. Сообщается, что ИИ способен подделать не только тембр голоса, но и эмоциональную окраску оригинала.

По данным Microsoft, нейросеть опирается на технологи EnCode и представляет собой языковую модель нейронного кодека. Нейросеть анализирует, как именно звучит человеческий голос, разбивает эту последовательность на отдельные «токены» и сопоставляет эти данные с тем, что «знает». На основе этой информации ИИ и произносит любую фразу поддельным голосом.

Обучение VALL-E проходило на основе библиотеки LibriLight, содержащей в себе 60 000 часов англоязычной речи в исполнении более 7 000 человек.

Эта страница может использовать файлы cookie в аналитических целях.