Trzy nowe modele głosowe OpenAI: GPT-Realtime-2, Translate i Whisper

Danny Weber

OpenAI zaprezentowało trzy nowe modele głosowe: GPT-Realtime-2 z rozumowaniem na poziomie GPT-5, GPT-Realtime-Translate do tłumaczenia na żywo i GPT-Realtime-Whisper do transkrypcji. Sprawdź ich możliwości i ceny.

OpenAI zaprezentowało trzy nowe modele głosowe do przetwarzania mowy w czasie rzeczywistym: GPT-Realtime-2, GPT-Realtime-Translate i GPT-Realtime-Whisper. Każdy z nich został dostosowany do konkretnego zastosowania – od prowadzenia rozmów, przez tłumaczenie, po rozpoznawanie mowy.

Główną nowością jest GPT-Realtime-2 – flagowy model audio oferujący rozumowanie na poziomie GPT-5 oraz większe okno kontekstowe obejmujące do 128 000 tokenów. W porównaniu z poprzednikiem, GPT-Realtime-1.5, zapewnia około 11% wzrost wydajności. Model radzi sobie z płynniejszymi dialogami, potrafi wtrącać pytania wyjaśniające, wykonywać kilka zadań jednocześnie i informować o postępie realizacji żądania.

Model oferuje regulowany poziom rozumowania – od minimalnego do bardzo wysokiego – co pozwala użytkownikom balansować między szybkością a jakością odpowiedzi. Podczas testów na żywo w firmie Zillow GPT-Realtime-2 zwiększył odsetek udanych rozmów z 69% do 95%. Ceny pozostają na poziomie 32 dolarów za milion tokenów audio na wejściu i 64 dolarów za milion tokenów na wyjściu.

Drugi model, GPT-Realtime-Translate, przeznaczony jest do tłumaczenia mowy w czasie rzeczywistym. Obsługuje ponad 70 języków wejściowych i 13 języków wyjściowych, zachowując tempo i strukturę naturalnej rozmowy. W testach przeprowadzonych przez BolnaAI wskaźnik błędów tłumaczenia dla kilku języków indyjskich spadł o 12,5%. Koszt modelu to 0,034 dolara za minutę.

Trzeci model, GPT-Realtime-Whisper, zajmuje się konwersją strumieniowej mowy na tekst. To ewolucja rodziny Whisper, zaprezentowanej po raz pierwszy w 2022 roku. Model zapewnia transkrypcję w czasie zbliżonym do rzeczywistego, a jego koszt to 0,017 dolara za minutę.

Jak informuje OpenAI, nowe narzędzia są przeznaczone do tworzenia asystentów głosowych, nowoczesnych centrów obsługi telefonicznej oraz usług tłumaczenia synchronicznego. Wszystkie trzy modele są już dostępne dla programistów przez API i posiadają wbudowane filtry treści.

© RusPhotoBank