Nye stemmemodeller fra OpenAI for sanntids taleprosessering

Danny Weber

OpenAI lanserer tre sanntids stemmemodeller: GPT-Realtime-2 med GPT-5-nivå resonnering, Translate for oversettelse av 70+ språk, og Whisper for tale-til-tekst.

OpenAI har lansert tre nye stemmemodeller for sanntids taleprosessering: GPT-Realtime-2, GPT-Realtime-Translate og GPT-Realtime-Whisper. Hver modell er skreddersydd for spesifikke bruksområder, fra samtaleforståelse til oversettelse og talegjenkjenning.

Fremst i rekken står GPT-Realtime-2, en flaggskipmodell med GPT-5-nivå resonnering og et kontekstvindu på opptil 128.000 tokens. Sammenlignet med forgjengeren GPT-Realtime-1.5 gir den en ytelsesøkning på omtrent 11 prosent. Modellen håndterer mer flytende dialog, kan avbryte med oppklarende setninger, multitaske og gi oppdateringer om fremdriften i forespørsler.

Modellen har justerbart resonneringsnivå, fra minimalt til svært høyt, slik at brukere kan balansere hastighet og svarvalitet. I live-tester hos Zillow økte GPT-Realtime-2 andelen vellykkede samtaler fra 69 til 95 prosent. Prisen er fortsatt 32 dollar per million lydinndata-tokens og 64 dollar per million lydutdata-tokens.

Den andre modellen, GPT-Realtime-Translate, er bygget for sanntids taleoversettelse. Den støtter mer enn 70 inndataspråk og 13 utdataspråk, samtidig som den bevarer tempoet og strukturen i naturlig samtale. I tester utført av BolnaAI falt oversettelsesfeilraten for flere indiske språk med 12,5 prosent. Modellen koster 0,034 dollar per minutt.

Den tredje modellen, GPT-Realtime-Whisper, håndterer strømmet tale-til-tekst-konvertering. Det er en videreutvikling av Whisper-familien, som først ble introdusert i 2022. Modellen leverer nesten sanntids transkripsjon og koster 0,017 dollar per minutt.

OpenAI opplyser at de nye verktøyene er ment for å utvikle talassistenter, neste generasjons kundesentre og synkrone oversettelsestjenester. Alle tre modellene er nå tilgjengelige for utviklere via API og har innebygde innholdsfiltre.

© RusPhotoBank