OpenAI har presenterat tre nya röstmodeller för realtidsbehandling av tal: GPT-Realtime-2, GPT-Realtime-Translate och GPT-Realtime-Whisper. Var och en är anpassad för ett specifikt användningsområde – från konversationsresonemang till översättning och taligenkänning.
Den stora nyheten är GPT-Realtime-2, en flaggskeppsmodell för ljud med resonemangsförmåga på GPT-5-nivå och ett kontextfönster på upp till 128 000 token. Jämfört med föregångaren GPT-Realtime-1.5 ger den en prestandaökning på cirka 11 %. Modellen klarar mer naturlig dialog, inflikar förtydliganden, kan multitaska och rapporterar hur en förfrågan fortskrider.
Modellen har justerbara resonemangsnivåer, från minimalt till mycket högt, så att användarna kan väga mellan snabbhet och svarskvalitet. I direkttester hos Zillow ökade GPT-Realtime-2 andelen lyckade samtal från 69 % till 95 %. Prissättningen ligger kvar på 32 dollar per miljon token för ljudinmatning och 64 dollar per miljon token för ljudutmatning.
Den andra modellen, GPT-Realtime-Translate, är utformad för realtidsöversättning av tal. Den hanterar över 70 inmatningsspråk och 13 utmatningsspråk, med bibehållen takt och struktur i naturligt tal. I tester från BolnaAI minskade andelen översättningsfel för flera indiska språk med 12,5 %. Modellen kostar 0,034 dollar per minut.
Den tredje modellen, GPT-Realtime-Whisper, hanterar strömmande tal-till-text-omvandling. Den är en vidareutveckling av Whisper-familjen, som lanserades första gången 2022. Modellen ger transkribering nästan i realtid och kostar 0,017 dollar per minut.
OpenAI uppger att de nya verktygen syftar till att skapa röstassistenter, callcenter av ny generation och synkrona översättningstjänster. Alla tre modellerna är nu tillgängliga för utvecklare via API och har inbyggda innehållsfilter.