Danny Weber
OpenAI lanceert GPT-Realtime-2, Translate en Whisper: stemmodellen voor realtime conversatie, vertaling en transcriptie. Nu beschikbaar via API.
OpenAI heeft drie nieuwe stemmodellen geïntroduceerd voor realtime spraakverwerking: GPT-Realtime-2, GPT-Realtime-Translate en GPT-Realtime-Whisper. Elk model is toegespitst op een specifiek gebruik, van conversatieredenering tot vertaling en spraakherkenning.
Voorop staat GPT-Realtime-2, een vlaggenschip-audiomodel met redeneervermogen op GPT-5-niveau en een contextvenster van maximaal 128.000 tokens. Ten opzichte van zijn voorganger GPT-Realtime-1.5 presteert het circa 11% beter. Het model voert vloeiendere gesprekken, kan verduidelijking geven, multitasken en gebruikers op de hoogte houden van de voortgang.
Het model biedt instelbare redeneerniveaus, van minimaal tot zeer hoog, zodat gebruikers kunnen schakelen tussen snelheid en kwaliteit. Bij live tests bij Zillow steeg het slagingspercentage van oproepen van 69% naar 95%. De prijzen blijven ongewijzigd: $32 per miljoen audio-invoertokens en $64 per miljoen audio-uitvoertokens.
Het tweede model, GPT-Realtime-Translate, is ontworpen voor realtime spraakvertaling. Het verwerkt meer dan 70 brontalen en 13 doeltalen, en behoudt daarbij het natuurlijke gesprekstempo en de structuur. Uit tests van BolnaAI bleek dat het foutpercentage bij vertalingen van een aantal Indiase talen met 12,5% daalde. De kosten bedragen $0,034 per minuut.
Het derde model, GPT-Realtime-Whisper, is een streaming spraakherkenner die spraak omzet in tekst. Het is een doorontwikkeling van de Whisper-familie, die in 2022 debuteerde. Het model levert vrijwel realtime transcriptie en kost $0,017 per minuut.
Volgens OpenAI zijn de nieuwe tools bedoeld voor het ontwikkelen van stemassistenten, de volgende generatie callcenters en synchrone vertaaldiensten. Alle drie modellen zijn per direct beschikbaar voor ontwikkelaars via de API en bevatten ingebouwde contentfilters.
© RusPhotoBank