Amazon Nova 2 Sonic: 端到端延迟低于500毫秒、音频延迟低于30毫秒的语音到语音基础模型
Amazon Nova 2 Sonic是第二代语音到语音基础模型,于2026年5月14日通过Amazon Bedrock发布。消除了对独立语音转文字和文字转语音服务的需求——端到端延迟低于500毫秒,通过Stream边缘网络音频延迟低于30毫秒,原生轮次检测、打断支持及对话中的函数调用。Stream Vision Agents框架抽象了双向音频流管理。
本文由人工智能基于一手来源生成。
Amazon Web Services于2026年5月14日推出Amazon Nova 2 Sonic——通过Amazon Bedrock提供的第二代语音到语音基础模型。新模型消除了传统语音代理技术栈的管道复杂性,将延迟基准推低至支持自然人类对话的阈值以下。
Nova 2 Sonic如何改变语音代理架构?
传统语音代理技术栈使用三个独立服务:语音转文字(STT)、LLM推理和文字转语音(TTS)。每个都增加延迟和故障点。Nova 2 Sonic是语音到语音基础模型——直接理解输入语音并生成输出音频,消除了STT/TTS层。结果是端到端延迟「通常低于500毫秒」。
Amazon具体公布了哪些延迟指标?
三项关键指标将Nova 2 Sonic定位于生产环境:
- 端到端延迟:通常低于500毫秒
- 音频延迟:通过Stream边缘网络低于30毫秒
- 加入时间:建立连接时低于500毫秒
这些阈值实现了「自然对话流而无可感知延迟」——对话伙伴不会感受到降低通信质量的交叉停顿。
该模型提供哪些功能?
Nova 2 Sonic在单一模型中结合了五项能力:
- 具备理解和推理的语音到语音转换
- 识别语音边界和中断的语音活动检测
- 允许用户自然打断代理的打断支持
- 对话中用于API集成和后端操作的函数调用
- 维护完整对话历史的上下文感知
Stream Vision Agents框架增加了什么?
Stream Vision Agents框架抽象了管理双向音频流的复杂性。使用事件驱动的双向流式API而非传统的请求-响应模式,使开发团队能够以最少代码构建生产级语音应用。该框架处理连接管理、抖动缓冲、丢包恢复和自适应比特率压缩。
该方式将Amazon定位于OpenAI实时API、ElevenLabs对话和Google Gemini Live主导的实时语音代理领域。入场代价是与Bedrock生态系统的集成——对已在AWS环境中的客户来说是合理的权衡。
常见问题
- Nova 2 Sonic与Nova Sonic 1有何区别?
- Nova 2 Sonic是新一代基础模型,端到端延迟低于500毫秒(优于Nova Sonic 1),原生轮次检测无需外部VAD库,支持打断和对话中函数调用——Nova Sonic 1需要Stream Vision Agents框架才能实现同等功能。
- Amazon具体公布了哪些延迟指标?
- 端到端延迟通常低于500毫秒,通过Stream边缘网络音频延迟低于30毫秒,建立连接时加入时间低于500毫秒——所有指标均在允许自然对话而无可感知延迟的阈值内。