Danny Weber
OpenAI lanserer tre sanntids stemmemodeller: GPT-Realtime-2 med GPT-5-nivå resonnering, Translate for oversettelse av 70+ språk, og Whisper for tale-til-tekst.
OpenAI har lansert tre nye stemmemodeller for sanntids taleprosessering: GPT-Realtime-2, GPT-Realtime-Translate og GPT-Realtime-Whisper. Hver modell er skreddersydd for spesifikke bruksområder, fra samtaleforståelse til oversettelse og talegjenkjenning.
Fremst i rekken står GPT-Realtime-2, en flaggskipmodell med GPT-5-nivå resonnering og et kontekstvindu på opptil 128.000 tokens. Sammenlignet med forgjengeren GPT-Realtime-1.5 gir den en ytelsesøkning på omtrent 11 prosent. Modellen håndterer mer flytende dialog, kan avbryte med oppklarende setninger, multitaske og gi oppdateringer om fremdriften i forespørsler.
Modellen har justerbart resonneringsnivå, fra minimalt til svært høyt, slik at brukere kan balansere hastighet og svarvalitet. I live-tester hos Zillow økte GPT-Realtime-2 andelen vellykkede samtaler fra 69 til 95 prosent. Prisen er fortsatt 32 dollar per million lydinndata-tokens og 64 dollar per million lydutdata-tokens.
Den andre modellen, GPT-Realtime-Translate, er bygget for sanntids taleoversettelse. Den støtter mer enn 70 inndataspråk og 13 utdataspråk, samtidig som den bevarer tempoet og strukturen i naturlig samtale. I tester utført av BolnaAI falt oversettelsesfeilraten for flere indiske språk med 12,5 prosent. Modellen koster 0,034 dollar per minutt.
Den tredje modellen, GPT-Realtime-Whisper, håndterer strømmet tale-til-tekst-konvertering. Det er en videreutvikling av Whisper-familien, som først ble introdusert i 2022. Modellen leverer nesten sanntids transkripsjon og koster 0,017 dollar per minutt.
OpenAI opplyser at de nye verktøyene er ment for å utvikle talassistenter, neste generasjons kundesentre og synkrone oversettelsestjenester. Alle tre modellene er nå tilgjengelige for utviklere via API og har innebygde innholdsfiltre.
© RusPhotoBank