Nuovi modelli vocali in tempo reale di OpenAI: GPT-Realtime-2, Translate e Whisper

OpenAI presenta GPT-Realtime-2, Translate e Whisper: parlato in tempo reale con ragionamento avanzato, traduzione multilingue e trascrizione. Prezzi invariati.

Danny Weber, Editor

12:10 10-05-2026

Aggiungi Pepelac News alle tue fonti Google preferite

OpenAI presenta tre nuovi modelli per il parlato in tempo reale

OpenAI ha svelato tre nuovi modelli vocali per l'elaborazione del parlato in tempo reale: GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper. Ogni modello è pensato per un caso d'uso specifico, che spazia dal ragionamento conversazionale alla traduzione fino al riconoscimento vocale.

Il fiore all'occhiello è GPT-Realtime-2, un modello audio di punta che integra il ragionamento di livello GPT-5 e una finestra di contesto più ampia, fino a 128.000 token. Rispetto al predecessore GPT-Realtime-1.5, offre un miglioramento delle prestazioni di circa l'11%. Il modello gestisce dialoghi più fluidi, intercalando frasi di chiarimento, multitasking e fornendo aggiornamenti sullo stato di avanzamento delle richieste.

Il modello introduce livelli di ragionamento regolabili, dal minimo al molto alto, consentendo agli utenti di bilanciare velocità e qualità delle risposte. In test dal vivo presso Zillow, GPT-Realtime-2 ha aumentato il tasso di chiamate riuscite dal 69% al 95%. I prezzi restano invariati: $32 per milione di token audio in input e $64 per milione di token audio in output.

Il secondo modello, GPT-Realtime-Translate, è stato progettato per la traduzione vocale in tempo reale. Supporta oltre 70 lingue di input e 13 lingue di output, mantenendo il ritmo e la struttura di una conversazione naturale. Nei test condotti da BolnaAI, i tassi di errore di traduzione per diverse lingue indiane sono diminuiti del 12,5%. Il costo è di $0,034 al minuto.

Il terzo modello, GPT-Realtime-Whisper, si occupa della conversione vocale in testo in streaming. È un'evoluzione della famiglia Whisper, introdotta per la prima volta nel 2022. Il modello offre una trascrizione quasi in tempo reale e costa $0,017 al minuto.

OpenAI afferma che questi nuovi strumenti sono pensati per creare assistenti vocali, contact center di nuova generazione e servizi di traduzione sincrona. Tutti e tre i modelli sono ora disponibili per gli sviluppatori tramite API e includono filtri di contenuto integrati.

Nuovi modelli vocali in tempo reale di OpenAI: GPT-Realtime-2, Translate e Whisper

Share