Danny Weber
OpenAI představil tři hlasové modely: GPT-Realtime-2 s vylepšeným uvažováním, GPT-Realtime-Translate pro překlad do 70+ jazyků a GPT-Realtime-Whisper pro přepis řeči. K dispozici přes API.
Společnost OpenAI představila tři nové hlasové modely pro zpracování řeči v reálném čase: GPT-Realtime-2, GPT-Realtime-Translate a GPT-Realtime-Whisper. Každý z nich je určen pro specifické použití – od konverzačního uvažování po překlad a rozpoznávání řeči.
Nejvýraznějším modelem je GPT-Realtime-2, vlajková loď s uvažováním na úrovni GPT-5 a kontextovým oknem až 128 000 tokenů. Oproti předchozí verzi GPT-Realtime-1.5 je přibližně o 11 % výkonnější. Model zvládá plynulejší dialogy, vkládá vysvětlující fráze, umožňuje multitasking a průběžně informuje o stavu požadavků.
Nabízí také nastavitelné úrovně uvažování od minimální po velmi vysokou, což uživatelům umožňuje volit mezi rychlostí a kvalitou odpovědí. Při ostrém testování ve společnosti Zillow zvýšil GPT-Realtime-2 úspěšnost hovorů z 69 % na 95 %. Cena zůstává na 32 dolarech za milion vstupních audio tokenů a 64 dolarech za milion výstupních audio tokenů.
Druhý model, GPT-Realtime-Translate, slouží k překladu řeči v reálném čase. Podporuje více než 70 vstupních a 13 výstupních jazyků, přičemž zachovává tempo a strukturu přirozené konverzace. V testech společnosti BolnaAI došlo u několika indických jazyků ke snížení chybovosti překladu o 12,5 %. Cena je 0,034 dolaru za minutu.
Třetí model, GPT-Realtime-Whisper, zajišťuje převod streamované řeči na text. Vychází z rodiny Whisper, která byla poprvé představena v roce 2022. Nabízí přepis téměř v reálném čase za 0,017 dolaru za minutu.
Podle OpenAI jsou tyto nové nástroje určeny k tvorbě hlasových asistentů, center zákaznické podpory nové generace a synchronních překladatelských služeb. Všechny tři modely jsou nyní k dispozici vývojářům prostřednictvím API a obsahují vestavěné obsahové filtry.
© RusPhotoBank