Danny Weber
OpenAI stellt GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper vor. Erfahren Sie mehr über die neuen Echtzeit-Sprachmodelle für Konversation, Übersetzung und Transkription.
OpenAI hat drei neue Sprachmodelle für die Echtzeitverarbeitung vorgestellt: GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper. Jedes ist auf einen bestimmten Einsatzzweck zugeschnitten – von der Konversationslogik über die Übersetzung bis zur Spracherkennung.
An der Spitze steht GPT-Realtime-2, ein Flaggschiff-Audiomodell mit GPT-5-Denkfähigkeit und einem erweiterten Kontextfenster von bis zu 128.000 Token. Im Vergleich zum Vorgänger GPT-Realtime-1.5 legt es um rund elf Prozent zu. Das Modell meistert flüssigere Dialoge, kann Zwischenfragen stellen, mehrere Aufgaben gleichzeitig erledigen und über den Bearbeitungsstand informieren.
Es führt einstellbare Denkstufen ein – von minimal bis sehr hoch –, sodass Nutzer Geschwindigkeit und Antwortqualität abwägen können. In einem Live-Test bei Zillow stieg die Erfolgsquote bei Anrufen von 69 auf 95 Prozent. Die Preise bleiben bei 32 Dollar pro Million Audio-Eingabe-Token und 64 Dollar pro Million Audio-Ausgabe-Token.
Das zweite Modell, GPT-Realtime-Translate, ist auf Echtzeit-Sprachübersetzung spezialisiert. Es verarbeitet über 70 Eingabe- und 13 Ausgabesprachen und bewahrt dabei das Tempo und die Struktur natürlicher Unterhaltungen. In Tests von BolnaAI sanken die Übersetzungsfehler für mehrere indische Sprachen um 12,5 Prozent. Die Kosten liegen bei 0,034 Dollar pro Minute.
Das dritte Modell, GPT-Realtime-Whisper, kümmert sich um die Streaming-Umwandlung von Sprache in Text. Es ist eine Weiterentwicklung der Whisper-Familie, die 2022 erstmals erschien. Das Modell liefert praktisch Echtzeit-Transkription und kostet 0,017 Dollar pro Minute.
OpenAI betont, dass die neuen Werkzeuge für Sprachassistenten, Callcenter der nächsten Generation und synchrone Übersetzungsdienste konzipiert sind. Alle drei Modelle stehen Entwicklern ab sofort über die API zur Verfügung und verfügen über integrierte Inhaltsfilter.
© RusPhotoBank