OpenAI ha svelato tre nuovi modelli vocali per l'elaborazione del parlato in tempo reale: GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper. Ogni modello è pensato per un caso d'uso specifico, che spazia dal ragionamento conversazionale alla traduzione fino al riconoscimento vocale.
Il fiore all'occhiello è GPT-Realtime-2, un modello audio di punta che integra il ragionamento di livello GPT-5 e una finestra di contesto più ampia, fino a 128.000 token. Rispetto al predecessore GPT-Realtime-1.5, offre un miglioramento delle prestazioni di circa l'11%. Il modello gestisce dialoghi più fluidi, intercalando frasi di chiarimento, multitasking e fornendo aggiornamenti sullo stato di avanzamento delle richieste.
Il modello introduce livelli di ragionamento regolabili, dal minimo al molto alto, consentendo agli utenti di bilanciare velocità e qualità delle risposte. In test dal vivo presso Zillow, GPT-Realtime-2 ha aumentato il tasso di chiamate riuscite dal 69% al 95%. I prezzi restano invariati: $32 per milione di token audio in input e $64 per milione di token audio in output.
Il secondo modello, GPT-Realtime-Translate, è stato progettato per la traduzione vocale in tempo reale. Supporta oltre 70 lingue di input e 13 lingue di output, mantenendo il ritmo e la struttura di una conversazione naturale. Nei test condotti da BolnaAI, i tassi di errore di traduzione per diverse lingue indiane sono diminuiti del 12,5%. Il costo è di $0,034 al minuto.
Il terzo modello, GPT-Realtime-Whisper, si occupa della conversione vocale in testo in streaming. È un'evoluzione della famiglia Whisper, introdotta per la prima volta nel 2022. Il modello offre una trascrizione quasi in tempo reale e costa $0,017 al minuto.
OpenAI afferma che questi nuovi strumenti sono pensati per creare assistenti vocali, contact center di nuova generazione e servizi di traduzione sincrona. Tutti e tre i modelli sono ora disponibili per gli sviluppatori tramite API e includono filtri di contenuto integrati.