OpenAI在API中发布三款全新实时语音模型

OpenAI于2026年5月7日在API中发布了三款全新实时语音模型：GPT-Realtime-2具备GPT-5级推理能力和128,000词元的上下文窗口；GPT-Realtime-Translate支持将70余种输入语言翻译为13种输出语言；GPT-Realtime-Whisper提供实时语音转录功能。

OpenAI于2026年5月7日在API中发布了新一代实时语音模型，为语音应用开辟了全新类别——这些应用能够在用户说话的同时同步进行推理、翻译和转录。三款独立模型共同构成企业语音代理的完整技术栈。

GPT-Realtime-2带来哪些新突破？

GPT-Realtime-2是OpenAI首款具备GPT-5级推理能力的语音模型，能够应对复杂请求并进行自然流畅的对话。上下文窗口从32,000扩展至128,000词元，支持更长时间的会话和单次调用中更复杂的指令。模型提供从最低到超高的可调推理级别，使开发团队能够在延迟与认知深度之间灵活权衡。在音频智能基准测试Big Bench Audio上，GPT-Realtime-2（高级）比前代GPT-Realtime-1.5高出15.2%，超高版本在Audio MultiChallenge指令遵循测试上领先13.8%。

Translate和Whisper模型如何工作？

GPT-Realtime-Translate支持将70余种输入语言实时翻译为13种输出语言，并能同步跟随说话者的语速，适用于跨国会议和跨境客户支持等场景。GPT-Realtime-Whisper是流式语音转文字模型，在用户说话时实时生成文字，面向需要极低延迟即时文本输出的应用。两款模型均独立于GPT-Realtime-2，开发团队可根据需求自由组合或拆分使用。

定价模式如何？

GPT-Realtime-2每百万输入音频词元收费32美元，缓存输入词元仅0.40美元，每百万输出音频词元收费64美元。缓存价格相当于重复上下文80倍的折扣，使长时间会话在经济上具有可行性。GPT-Realtime-Translate按分钟计费，每分钟0.034美元；GPT-Realtime-Whisper每分钟0.017美元。此举将OpenAI直接推入企业语音代理市场，此前Realtime API受限于较短的上下文和较低的推理能力。

常见问题

GPT-Realtime-2有哪些新功能？

这是首款具备GPT-5级推理能力的语音模型，上下文窗口从32,000扩展至128,000词元，并提供从最低到超高的可调推理级别。

GPT-Realtime-Translate支持多少种语言？

支持将70余种输入语言实时翻译为13种输出语言，并能跟随说话者的语速进行同步翻译。

新模型的使用费用是多少？

GPT-Realtime-2：输入音频每百万词元32美元（缓存输入0.40美元），输出每百万词元64美元。Translate每分钟0.034美元，Whisper每分钟0.017美元。

OpenAI: API中推出三款全新实时语音模型，支持推理与翻译

GPT-Realtime-2带来哪些新突破？

Translate和Whisper模型如何工作？

定价模式如何？

常见问题

来源

相关新闻