Az OpenAI bemutatta három új, valós idejű beszédfeldolgozásra szánt hangmodelljét. A GPT-Realtime-2, a GPT-Realtime-Translate és a GPT-Realtime-Whisper mindegyike más-más feladatra specializálódott: a társalgási érveléstől a fordításig és a beszédfelismerésig terjed a paletta.
A zászlóshajó a GPT-Realtime-2, egy csúcskategóriás hangmodell, amely GPT-5 szintű érvelési képességgel és akár 128 000 token méretű kontextusablakkal büszkélkedhet. Elődjéhez, a GPT-Realtime-1.5-höz képest mintegy 11 százalékkal jobb teljesítményt nyújt. A modell gördülékenyebb párbeszédet tesz lehetővé, képes közbevetésekre, pontosításokra, több feladat egyidejű kezelésére, és tájékoztat a kérések előrehaladásáról.
Az újítás része az állítható érvelési szint is, amely a minimálistól a nagyon magasig terjedő skálán mozog, így a felhasználók a sebesség és a válaszminőség között egyensúlyozhatnak. A Zillow-nál végzett élő tesztek során a GPT-Realtime-2 a sikeres hívások arányát 69-ről 95 százalékra emelte. Az árazás változatlan: 32 dollár millió audio input tokenenként, és 64 dollár millió audio output tokenenként.
A második modell, a GPT-Realtime-Translate, valós idejű beszédfordításra készült. Több mint 70 bemeneti és 13 kimeneti nyelvet támogat, miközben megőrzi a természetes beszélgetés ritmusát és szerkezetét. A BolnaAI tesztjeiben több indiai nyelv esetében 12,5 százalékkal csökkent a fordítási hibák aránya. A modell percenkénti díja 0,034 dollár.
A harmadik modell, a GPT-Realtime-Whisper, streamelt beszéd-szöveg átalakítást végez. Ez a Whisper család továbbfejlesztett változata, amelyet eredetileg 2022-ben mutattak be. A modell közel valós idejű átírást biztosít, percenként 0,017 dolláros áron.
Az OpenAI szerint ezek az új eszközök hangasszisztensek, következő generációs ügyfélszolgálati központok és szinkron fordítási szolgáltatások fejlesztését segítik. Mindhárom modell elérhető a fejlesztők számára API-n keresztül, beépített tartalomszűrőkkel.