OpenAI: 推論と翻訳に対応した3つの新しいリアルタイム音声モデルをAPIに追加
OpenAIは2026年5月7日、APIに3つの新しいリアルタイム音声モデルを発表しました。GPT-Realtime-2はGPT-5クラスの推論と128,000トークンのコンテキストを備え、GPT-Realtime-Translateは70以上の入力言語から13の出力言語へのリアルタイム翻訳を実現し、GPT-Realtime-Whisperはライブ音声文字起こしを提供します。
この記事はAIにより一次情報源から生成されました。
OpenAIは2026年5月7日、APIに新世代のリアルタイム音声モデルを発表しました。ユーザーが話している間にリアルタイムで推論、翻訳、文字起こしを同時に行う音声アプリケーションの新しいクラスが開かれます。3つの独立したモデルが組み合わさってエンタープライズ音声エージェント向けの完全な音声スタックをカバーします。
GPT-Realtime-2の新機能は何ですか?
GPT-Realtime-2はOpenAI初のGPT-5クラスの推論能力を持つ音声モデルであり、より難しいリクエストへの対応と自然な会話の維持が可能です。コンテキストウィンドウは32,000から128,000トークンに拡張され、より長いセッションと1回の呼び出し内でのより複雑な指示が可能になります。最小から超高までの調整可能な推論レベルを提供し、開発チームがレイテンシーと認知の深さのバランスを取れるようにします。音声インテリジェンスのBig Bench AudioベンチマークでGPT-Realtime-2(高)は前世代GPT-Realtime-1.5より15.2%優れた結果を出し、超高バリアントはAudio MultiChallenge指示追従テストで1.5を13.8%上回ります。
TranslateモデルとWhisperモデルはどのように機能しますか?
GPT-Realtime-Translateは70以上の入力言語から13の出力言語へ話者のペースに合わせてリアルタイムで翻訳し、多国籍会議やクロスボーダーのカスタマーサポートなどのシナリオに適しています。GPT-Realtime-Whisperはストリーミングの音声テキスト変換で、ユーザーが話している間にリアルタイムで文字起こしを行い、最小限のレイテンシーで即時テキスト出力を必要とするアプリケーション向けです。どちらのモデルもGPT-Realtime-2とは独立しており、開発チームは機能を自由に組み合わせたり分けたりできます。
価格モデルはどのようになっていますか?
GPT-Realtime-2は入力音声100万トークンあたり32ドルで、キャッシュ済み入力トークンは0.40ドル、出力音声100万トークンあたり64ドルです。キャッシュ価格は繰り返されるコンテキストに対して80倍の割引を表し、長いセッションを経済的に持続可能にします。GPT-Realtime-Translateは分単位で請求され、1分あたり0.034ドル、GPT-Realtime-Whisperは1分あたり0.017ドルです。これによりOpenAIはエンタープライズ音声エージェント市場に直接参入します。以前はRealtime APIは短いコンテキストと低い推論能力によって制限されていました。
よくある質問
- GPT-Realtime-2の新機能は何ですか?
- GPT-5クラスの推論能力を持つ初の音声モデルで、コンテキストが32,000から128,000トークンに拡張され、最小から超高までの調整可能な推論レベルを提供します。
- GPT-Realtime-Translateは何言語に対応していますか?
- 70以上の入力言語から13の出力言語へリアルタイムで翻訳し、話者のペースに合わせて進行します。
- 新モデルの使用コストはいくらですか?
- GPT-Realtime-2:入力音声1Mトークンあたり32ドル(キャッシュ済みは0.40ドル)、出力1Mトークンあたり64ドル。Translateは1分あたり0.034ドル、Whisperは1分あたり0.017ドルです。