OpenAI lance trois modèles vocaux : GPT-Realtime-2, Translate et Whisper

Danny Weber

OpenAI dévoile GPT-Realtime-2, Translate et Whisper : des modèles vocaux temps réel pour transcription, traduction et conversations. Essayez l'API puissante.

OpenAI a dévoilé trois nouveaux modèles vocaux pour le traitement de la parole en temps réel : GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper. Chacun est conçu pour un cas d'usage spécifique, allant du raisonnement conversationnel à la traduction et à la reconnaissance vocale.

Le modèle phare de cette série est le GPT-Realtime-2, un modèle audio doté d'un raisonnement de niveau GPT-5 et d'une fenêtre de contexte pouvant atteindre 128 000 tokens. Par rapport à son prédécesseur GPT-Realtime-1.5, il offre un gain de performance d'environ 11 %. Ce modèle gère des dialogues plus fluides : il sait intercaler des phrases de clarification, effectuer plusieurs tâches à la fois et fournir des mises à jour sur l'avancement des requêtes.

Le modèle propose des niveaux de raisonnement ajustables, de minimal à très élevé, permettant aux utilisateurs de trouver un équilibre entre rapidité et qualité des réponses. Lors de tests en conditions réelles chez Zillow, le GPT-Realtime-2 a fait passer le taux d'appels réussis de 69 % à 95 %. Le tarif reste de 32 dollars par million de tokens audio en entrée et de 64 dollars par million de tokens audio en sortie.

Le deuxième modèle, GPT-Realtime-Translate, est conçu pour la traduction vocale en temps réel. Il prend en charge plus de 70 langues en entrée et 13 langues en sortie, tout en préservant le rythme et la structure d'une conversation naturelle. Lors de tests menés par BolnaAI, les taux d'erreur de traduction pour plusieurs langues indiennes ont baissé de 12,5 %. Le modèle coûte 0,034 dollar par minute.

Le troisième modèle, GPT-Realtime-Whisper, assure la conversion vocale en texte en continu. Il s'agit d'une évolution de la famille Whisper, introduite pour la première fois en 2022. Le modèle offre une transcription quasi en temps réel et coûte 0,017 dollar par minute.

OpenAI indique que ces nouveaux outils visent à créer des assistants vocaux, des centres d'appels de nouvelle génération et des services de traduction synchrone. Les trois modèles sont désormais disponibles pour les développeurs via l'API et sont dotés de filtres de contenu intégrés.

© RusPhotoBank