OpenAI ha presentado tres nuevos modelos de voz para procesamiento en tiempo real: GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper. Cada uno está diseñado para un caso de uso específico, desde razonamiento conversacional hasta traducción y reconocimiento de voz.
La gran novedad es GPT-Realtime-2, un modelo insignia de audio que integra razonamiento de nivel GPT-5 y una ventana de contexto de hasta 128.000 tokens. Respecto a su predecesor, GPT-Realtime-1.5, ofrece un incremento de rendimiento de aproximadamente el 11%. El modelo gestiona diálogos más fluidos, permite intercalar frases aclaratorias, realizar múltiples tareas y proporciona actualizaciones sobre el progreso de las solicitudes.
Incluye niveles de razonamiento ajustables, desde mínimo hasta muy alto, lo que permite a los usuarios equilibrar velocidad y calidad de respuesta. En pruebas en vivo realizadas en Zillow, GPT-Realtime-2 elevó la tasa de llamadas exitosas del 69% al 95%. Los precios se mantienen en 32 dólares por millón de tokens de entrada de audio y 64 dólares por millón de tokens de salida.
El segundo modelo, GPT-Realtime-Translate, está concebido para la traducción de voz en tiempo real. Soporta más de 70 idiomas de entrada y 13 de salida, preservando el ritmo y la estructura de la conversación natural. En pruebas realizadas por BolnaAI, las tasas de error en traducción para varios idiomas indios se redujeron en un 12,5%. El costo es de 0,034 dólares por minuto.
El tercer modelo, GPT-Realtime-Whisper, se encarga de la transcripción de voz a texto en streaming. Es una evolución de la familia Whisper, lanzada originalmente en 2022. Ofrece transcripción casi en tiempo real y cuesta 0,017 dólares por minuto.
OpenAI señala que estas nuevas herramientas están pensadas para crear asistentes de voz, centros de llamadas de nueva generación y servicios de traducción simultánea. Los tres modelos ya están disponibles para los desarrolladores a través de API y cuentan con filtros de contenido integrados.