OpenAI: APIに3つの新しいリアルタイム音声モデルを追加

OpenAIは2026年5月7日、APIに3つの新しいリアルタイム音声モデルを発表しました。GPT-Realtime-2はGPT-5クラスの推論と128,000トークンのコンテキストを備え、GPT-Realtime-Translateは70以上の入力言語から13の出力言語へのリアルタイム翻訳を実現し、GPT-Realtime-Whisperはライブ音声文字起こしを提供します。

OpenAIは2026年5月7日、APIに新世代のリアルタイム音声モデルを発表しました。ユーザーが話している間にリアルタイムで推論、翻訳、文字起こしを同時に行う音声アプリケーションの新しいクラスが開かれます。3つの独立したモデルが組み合わさってエンタープライズ音声エージェント向けの完全な音声スタックをカバーします。

GPT-Realtime-2の新機能は何ですか？

GPT-Realtime-2はOpenAI初のGPT-5クラスの推論能力を持つ音声モデルであり、より難しいリクエストへの対応と自然な会話の維持が可能です。コンテキストウィンドウは32,000から128,000トークンに拡張され、より長いセッションと1回の呼び出し内でのより複雑な指示が可能になります。最小から超高までの調整可能な推論レベルを提供し、開発チームがレイテンシーと認知の深さのバランスを取れるようにします。音声インテリジェンスのBig Bench AudioベンチマークでGPT-Realtime-2（高）は前世代GPT-Realtime-1.5より15.2%優れた結果を出し、超高バリアントはAudio MultiChallenge指示追従テストで1.5を13.8%上回ります。

TranslateモデルとWhisperモデルはどのように機能しますか？

GPT-Realtime-Translateは70以上の入力言語から13の出力言語へ話者のペースに合わせてリアルタイムで翻訳し、多国籍会議やクロスボーダーのカスタマーサポートなどのシナリオに適しています。GPT-Realtime-Whisperはストリーミングの音声テキスト変換で、ユーザーが話している間にリアルタイムで文字起こしを行い、最小限のレイテンシーで即時テキスト出力を必要とするアプリケーション向けです。どちらのモデルもGPT-Realtime-2とは独立しており、開発チームは機能を自由に組み合わせたり分けたりできます。

価格モデルはどのようになっていますか？

GPT-Realtime-2は入力音声100万トークンあたり32ドルで、キャッシュ済み入力トークンは0.40ドル、出力音声100万トークンあたり64ドルです。キャッシュ価格は繰り返されるコンテキストに対して80倍の割引を表し、長いセッションを経済的に持続可能にします。GPT-Realtime-Translateは分単位で請求され、1分あたり0.034ドル、GPT-Realtime-Whisperは1分あたり0.017ドルです。これによりOpenAIはエンタープライズ音声エージェント市場に直接参入します。以前はRealtime APIは短いコンテキストと低い推論能力によって制限されていました。

よくある質問

GPT-Realtime-2の新機能は何ですか？

GPT-5クラスの推論能力を持つ初の音声モデルで、コンテキストが32,000から128,000トークンに拡張され、最小から超高までの調整可能な推論レベルを提供します。

GPT-Realtime-Translateは何言語に対応していますか？

70以上の入力言語から13の出力言語へリアルタイムで翻訳し、話者のペースに合わせて進行します。

新モデルの使用コストはいくらですか？

GPT-Realtime-2：入力音声1Mトークンあたり32ドル（キャッシュ済みは0.40ドル）、出力1Mトークンあたり64ドル。Translateは1分あたり0.034ドル、Whisperは1分あたり0.017ドルです。

OpenAI: 推論と翻訳に対応した3つの新しいリアルタイム音声モデルをAPIに追加

GPT-Realtime-2の新機能は何ですか？

TranslateモデルとWhisperモデルはどのように機能しますか？

価格モデルはどのようになっていますか？

よくある質問

出典

関連ニュース