Скоро дипфейки станут ещё более реалистичными: Microsoft выпустила новую нейросеть
Microsoft представила модель Dragon V2.1: более естественный голос и поддержка свыше 100 языков.
Нейросеть Dragon V2.1 получила реальную транскрипцию речи
Microsoft представила модель Dragon V2.1: более естественный голос и поддержка свыше 100 языков.
Нейросеть Dragon V2.1 получила реальную транскрипцию речи
Фото: © RusPhotoBank
Компания Microsoft выпустила новую версию своей нейросетевой модели преобразования текста в речь — Dragon V2.1 Neural, основанную на принципах нулевого обучения. Эта модель способна синтезировать естественный, выразительный голос, опираясь лишь на несколько секунд аудиопримера, и при этом поддерживает более 100 языков.
В отличие от предыдущей версии — Dragon V1, которая испытывала трудности с произношением имён собственных и терминов, Dragon V2.1 добилась снижения показателя средней словарной ошибки на 12,8%. Это означает заметное улучшение точности и выразительности речи, что делает модель особенно пригодной для таких задач, как озвучка мультиязычных видео, персонализация голосов виртуальных ассистентов и создание уникальных голосов для чат-ботов.
Помимо повышения точности, Microsoft подчёркивает и улучшение качества звучания: пользователи могут детально настраивать произношение и акценты при помощи SSML-тегов и собственных словарей. Чтобы ускорить процесс освоения технологии, компания представила готовые голосовые профили — на их основе можно экспериментировать с возможностями модели.
Ранее издание Пепелац Ньюс сообщало, что компания CATL представила собтсвенный полностью электрический катер.