OpenAI представила три новые голосовые модели для работы с речью в реальном времени: GPT-Realtime-2, GPT-Realtime-Translate и GPT-Realtime-Whisper. Каждая из них закрывает отдельную задачу — от диалогов с рассуждениями до перевода и распознавания речи.
Главной новинкой стала GPT-Realtime-2 — флагманская аудиомодель с логикой уровня GPT-5 и расширенным контекстным окном до 128 тыс. токенов. По сравнению с предыдущей версией GPT-Realtime-1.5, она показывает прирост производительности примерно на 11%. Модель умеет вести более «живой» диалог: вставляет уточняющие фразы, может параллельно выполнять задачи и сообщать о ходе обработки запроса.
Отдельно добавлены регулируемые уровни «рассуждений» — от минимального до очень высокого, что позволяет балансировать между скоростью и качеством ответа. В реальных тестах, например у компании Zillow, GPT-Realtime-2 повысила долю успешных звонков с 69% до 95%. Стоимость использования сохранена на уровне $32 за миллион токенов аудиовхода и $64 за миллион токенов аудиовыхода.
Вторая модель — GPT-Realtime-Translate — ориентирована на синхронный перевод речи. Она поддерживает более 70 входных языков и 13 языков вывода, стараясь сохранять темп и структуру живого разговора. По данным тестов BolnaAI, число ошибок перевода для ряда индийских языков снизилось на 12,5%. Цена работы модели составляет $0,034 за минуту.
Третья — GPT-Realtime-Whisper — отвечает за потоковую транскрипцию речи в текст. Это развитие семейства Whisper, впервые представленного в 2022 году. Модель преобразует речь практически в реальном времени и стоит $0,017 за минуту.
В OpenAI заявляют, что новые инструменты рассчитаны на создание голосовых ассистентов, колл-центров нового поколения и сервисов синхронного перевода. Все три модели уже доступны разработчикам через API и включают встроенные механизмы фильтрации нежелательного контента.