Скоро дипфейки станут ещё более реалистичными: Microsoft выпустила новую нейросеть

Дмитрий Новиков

31 июля 2025 09:23:55

Фото: © RusPhotoBank

Microsoft представила модель Dragon V2.1: более естественный голос и поддержка свыше 100 языков.

Компания Microsoft выпустила новую версию своей нейросетевой модели преобразования текста в речь — Dragon V2.1 Neural, основанную на принципах нулевого обучения. Эта модель способна синтезировать естественный, выразительный голос, опираясь лишь на несколько секунд аудиопримера, и при этом поддерживает более 100 языков.

В отличие от предыдущей версии — Dragon V1, которая испытывала трудности с произношением имён собственных и терминов, Dragon V2.1 добилась снижения показателя средней словарной ошибки на 12,8%. Это означает заметное улучшение точности и выразительности речи, что делает модель особенно пригодной для таких задач, как озвучка мультиязычных видео, персонализация голосов виртуальных ассистентов и создание уникальных голосов для чат-ботов.

Помимо повышения точности, Microsoft подчёркивает и улучшение качества звучания: пользователи могут детально настраивать произношение и акценты при помощи SSML-тегов и собственных словарей. Чтобы ускорить процесс освоения технологии, компания представила готовые голосовые профили — на их основе можно экспериментировать с возможностями модели.

Ранее издание Пепелац Ньюс сообщало, что компания CATL представила собтсвенный полностью электрический катер.

Эта страница может использовать файлы cookie в аналитических целях.