OpenAI lansează trei modele vocale: GPT-Realtime-2, Translate și Whisper

Danny Weber

OpenAI lansează trei modele vocale: GPT-Realtime-2 (raționament), GPT-Realtime-Translate (traducere), GPT-Realtime-Whisper (transcriere). Disponibile prin API.

OpenAI a lansat trei modele vocale noi pentru procesarea vorbirii în timp real: GPT-Realtime-2, GPT-Realtime-Translate și GPT-Realtime-Whisper. Fiecare este conceput pentru un anumit scop, de la raționament conversațional la traducere și recunoaștere a vorbirii.

Vedeta lansării este GPT-Realtime-2, un model audio de top cu capacități de raționament la nivelul GPT-5 și o fereastră de context extinsă până la 128.000 de tokeni. Comparativ cu predecesorul său, GPT-Realtime-1.5, oferă o creștere a performanței de aproximativ 11%. Modelul gestionează dialoguri mai fluide, intercalând fraze de clarificare, multitasking și oferind actualizări cu privire la progresul solicitărilor.

Modelul introduce niveluri reglabile de raționament, de la minim la foarte ridicat, permițând utilizatorilor să echilibreze viteza și calitatea răspunsurilor. În testele live la Zillow, GPT-Realtime-2 a crescut rata apelurilor reușite de la 69% la 95%. Prețul rămâne de 32 de dolari per milion de tokeni audio de intrare și 64 de dolari per milion de tokeni audio de ieșire.

Al doilea model, GPT-Realtime-Translate, este conceput pentru traducerea vorbirii în timp real. Suportă peste 70 de limbi de intrare și 13 limbi de ieșire, păstrând ritmul și structura conversației naturale. În testele efectuate de BolnaAI, ratele de eroare de traducere pentru mai multe limbi indiene au scăzut cu 12,5%. Modelul costă 0,034 dolari pe minut.

Al treilea model, GPT-Realtime-Whisper, se ocupă de conversia streaming a vorbirii în text. Este o evoluție a familiei Whisper, lansată pentru prima dată în 2022. Modelul oferă transcriere aproape în timp real și costă 0,017 dolari pe minut.

OpenAI afirmă că aceste noi instrumente sunt destinate creării de asistenți vocali, centre de apeluri de ultimă generație și servicii de traducere sincronă. Toate cele trei modele sunt acum disponibile dezvoltatorilor prin API și vin cu filtre de conținut integrate.

© RusPhotoBank