🔴 🤖 模型 2026年5月8日星期五 · 1 分钟阅读 ·

OpenAI: API中推出三款全新实时语音模型,支持推理与翻译

编辑插图:API中推出三款全新实时语音模型,支持推理与翻译

OpenAI于2026年5月7日在API中发布了三款全新实时语音模型:GPT-Realtime-2具备GPT-5级推理能力和128,000词元的上下文窗口;GPT-Realtime-Translate支持将70余种输入语言翻译为13种输出语言;GPT-Realtime-Whisper提供实时语音转录功能。

🤖

本文由人工智能基于一手来源生成。

OpenAI于2026年5月7日在API中发布了新一代实时语音模型,为语音应用开辟了全新类别——这些应用能够在用户说话的同时同步进行推理、翻译和转录。三款独立模型共同构成企业语音代理的完整技术栈。

GPT-Realtime-2带来哪些新突破?

GPT-Realtime-2是OpenAI首款具备GPT-5级推理能力的语音模型,能够应对复杂请求并进行自然流畅的对话。上下文窗口从32,000扩展至128,000词元,支持更长时间的会话和单次调用中更复杂的指令。模型提供从最低到超高的可调推理级别,使开发团队能够在延迟与认知深度之间灵活权衡。在音频智能基准测试Big Bench Audio上,GPT-Realtime-2(高级)比前代GPT-Realtime-1.5高出15.2%,超高版本在Audio MultiChallenge指令遵循测试上领先13.8%。

Translate和Whisper模型如何工作?

GPT-Realtime-Translate支持将70余种输入语言实时翻译为13种输出语言,并能同步跟随说话者的语速,适用于跨国会议和跨境客户支持等场景。GPT-Realtime-Whisper是流式语音转文字模型,在用户说话时实时生成文字,面向需要极低延迟即时文本输出的应用。两款模型均独立于GPT-Realtime-2,开发团队可根据需求自由组合或拆分使用。

定价模式如何?

GPT-Realtime-2每百万输入音频词元收费32美元,缓存输入词元仅0.40美元,每百万输出音频词元收费64美元。缓存价格相当于重复上下文80倍的折扣,使长时间会话在经济上具有可行性。GPT-Realtime-Translate按分钟计费,每分钟0.034美元;GPT-Realtime-Whisper每分钟0.017美元。此举将OpenAI直接推入企业语音代理市场,此前Realtime API受限于较短的上下文和较低的推理能力。

常见问题

GPT-Realtime-2有哪些新功能?
这是首款具备GPT-5级推理能力的语音模型,上下文窗口从32,000扩展至128,000词元,并提供从最低到超高的可调推理级别。
GPT-Realtime-Translate支持多少种语言?
支持将70余种输入语言实时翻译为13种输出语言,并能跟随说话者的语速进行同步翻译。
新模型的使用费用是多少?
GPT-Realtime-2:输入音频每百万词元32美元(缓存输入0.40美元),输出每百万词元64美元。Translate每分钟0.034美元,Whisper每分钟0.017美元。