OpenAI、リアルタイム音声処理向け新モデル「GPT-Realtime-2」など3種発表

OpenAI、リアルタイム音声処理に新モデル「GPT-Realtime-2」など3種を発表
© RusPhotoBank

OpenAIは、リアルタイム音声処理向けの三つの新モデル「GPT-Realtime-2」「GPT-Realtime-Translate」「GPT-Realtime-Whisper」を発表した。それぞれ会話型推論、翻訳、音声認識といった用途に特化している。

今回の目玉はフラッグシップモデルのGPT-Realtime-2だ。GPT-5レベルの推論能力と最大12万8000トークンのコンテキストウィンドウを備え、前世代のGPT-Realtime-1.5に対し性能が約11%向上。より流暢な対話、明確化のための割り込み、マルチタスク処理、リクエスト進捗の報告などが可能になった。

推論レベルは最小から非常に高いものまで調整でき、ユーザーは速度と応答品質を自由に設定できる。Zillowでの実地テストでは、通話成功率が69%から95%に改善した。価格は音声入力トークン100万あたり32ドル、出力トークン100万あたり64ドルで据え置きとなっている。

2つ目のGPT-Realtime-Translateはリアルタイム音声翻訳向け。70以上の入力言語と13の出力言語に対応し、自然な会話のリズムを保つ。BolnaAIのテストでは、複数のインド言語で翻訳エラー率が12.5%低下した。料金は1分あたり0.034ドル。

3つ目のGPT-Realtime-Whisperはストリーミング音声のテキスト変換を担当。2022年登場のWhisperシリーズの進化版で、ほぼリアルタイムの文字起こしを実現。価格は1分あたり0.017ドルだ。

OpenAIによれば、これらの新ツールは音声アシスタント、次世代コールセンター、同時通訳サービスの構築を想定している。3モデルともAPIで利用可能で、コンテンツフィルターが標準装備されている。