OpenAI'den Üç Yeni Gerçek Zamanlı Ses Modeli

Danny Weber

12:19 10-05-2026

OpenAI, gerçek zamanlı konuşma için üç yeni ses modeli: GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper. Performans ve çeviri iyileştirildi.

Pepelac News’yi tercih ettiğiniz Google kaynaklarına ekleyin

OpenAI, gerçek zamanlı konuşma işleme için üç yeni ses modelini tanıttı: GPT-Realtime-2, GPT-Realtime-Translate ve GPT-Realtime-Whisper. Her model, sohbet tabanlı akıl yürütmeden çeviri ve konuşma tanımaya kadar belirli bir kullanım alanına yönelik olarak tasarlandı.

Sunumun öne çıkan modeli, GPT-5 seviyesinde akıl yürütme ve 128.000 tokena kadar daha geniş bir bağlam penceresi sunan GPT-Realtime-2 oldu. Bir önceki model GPT-Realtime-1.5'e kıyasla yaklaşık %11 performans artışı sağlayan bu model, daha akıcı diyaloglar yönetiyor, açıklayıcı ifadeler ekleyebiliyor, çoklu görev yapabiliyor ve istek ilerlemesi hakkında güncellemeler verebiliyor.

Model, minimumdan çok yükseğe kadar ayarlanabilir akıl yürütme seviyeleri sunarak kullanıcıların hız ve yanıt kalitesi arasında denge kurmasına olanak tanıyor. Zillow'da yapılan canlı testlerde GPT-Realtime-2, başarılı arama oranını %69'dan %95'e çıkardı. Fiyatlandırma, milyon ses giriş tokenı başına 32 dolar ve milyon ses çıkış tokenı başına 64 dolar olarak belirlendi.

İkinci model olan GPT-Realtime-Translate, gerçek zamanlı konuşma çevirisi için geliştirildi. 70'in üzerinde giriş dili ve 13 çıkış dilini desteklerken doğal sohbetin temposunu ve yapısını koruyor. BolnaAI tarafından yapılan testlerde, birkaç Hint dili için çeviri hata oranları %12,5 azaldı. Modelin dakika başına maliyeti 0,034 dolar.

Üçüncü model GPT-Realtime-Whisper ise akan sesin metne dönüştürülmesini sağlıyor. İlk kez 2022'de tanıtılan Whisper ailesinin bir evrimi olan bu model, neredeyse gerçek zamanlı transkripsiyon sunuyor ve dakika başına 0,017 dolara mal oluyor.

OpenAI, bu yeni araçların sesli asistanlar, yeni nesil çağrı merkezleri ve eşzamanlı çeviri hizmetleri oluşturmaya yönelik olduğunu belirtiyor. Her üç model de geliştiricilerin kullanımına API aracılığıyla sunuldu ve yerleşik içerik filtreleriyle birlikte geliyor.