OpenAI、リアルタイム音声処理向け新モデル「GPT-Realtime-2」など3種発表

Danny Weber

OpenAIがリアルタイム音声処理の新モデルGPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisperを発表。GPT-Realtime-2は前世代比11%性能向上、Zillowで通話成功率95%に。API利用可能、コンテンツフィルター搭載。

OpenAIは、リアルタイム音声処理向けの三つの新モデル「GPT-Realtime-2」「GPT-Realtime-Translate」「GPT-Realtime-Whisper」を発表した。それぞれ会話型推論、翻訳、音声認識といった用途に特化している。

今回の目玉はフラッグシップモデルのGPT-Realtime-2だ。GPT-5レベルの推論能力と最大12万8000トークンのコンテキストウィンドウを備え、前世代のGPT-Realtime-1.5に対し性能が約11%向上。より流暢な対話、明確化のための割り込み、マルチタスク処理、リクエスト進捗の報告などが可能になった。

推論レベルは最小から非常に高いものまで調整でき、ユーザーは速度と応答品質を自由に設定できる。Zillowでの実地テストでは、通話成功率が69%から95%に改善した。価格は音声入力トークン100万あたり32ドル、出力トークン100万あたり64ドルで据え置きとなっている。

2つ目のGPT-Realtime-Translateはリアルタイム音声翻訳向け。70以上の入力言語と13の出力言語に対応し、自然な会話のリズムを保つ。BolnaAIのテストでは、複数のインド言語で翻訳エラー率が12.5%低下した。料金は1分あたり0.034ドル。

3つ目のGPT-Realtime-Whisperはストリーミング音声のテキスト変換を担当。2022年登場のWhisperシリーズの進化版で、ほぼリアルタイムの文字起こしを実現。価格は1分あたり0.017ドルだ。

OpenAIによれば、これらの新ツールは音声アシスタント、次世代コールセンター、同時通訳サービスの構築を想定している。3モデルともAPIで利用可能で、コンテンツフィルターが標準装備されている。

© RusPhotoBank