Amazon Nova 2 Sonic：低于500毫秒的语音代理基础模型

Amazon Nova 2 Sonic是第二代语音到语音基础模型，于2026年5月14日通过Amazon Bedrock发布。消除了对独立语音转文字和文字转语音服务的需求——端到端延迟低于500毫秒，通过Stream边缘网络音频延迟低于30毫秒，原生轮次检测、打断支持及对话中的函数调用。Stream Vision Agents框架抽象了双向音频流管理。

Amazon Web Services于2026年5月14日推出Amazon Nova 2 Sonic——通过Amazon Bedrock提供的第二代语音到语音基础模型。新模型消除了传统语音代理技术栈的管道复杂性，将延迟基准推低至支持自然人类对话的阈值以下。

Nova 2 Sonic如何改变语音代理架构？

传统语音代理技术栈使用三个独立服务：语音转文字（STT）、LLM推理和文字转语音（TTS）。每个都增加延迟和故障点。Nova 2 Sonic是语音到语音基础模型——直接理解输入语音并生成输出音频，消除了STT/TTS层。结果是端到端延迟「通常低于500毫秒」。

Amazon具体公布了哪些延迟指标？

三项关键指标将Nova 2 Sonic定位于生产环境：

端到端延迟：通常低于500毫秒
音频延迟：通过Stream边缘网络低于30毫秒
加入时间：建立连接时低于500毫秒

这些阈值实现了「自然对话流而无可感知延迟」——对话伙伴不会感受到降低通信质量的交叉停顿。

该模型提供哪些功能？

Nova 2 Sonic在单一模型中结合了五项能力：

具备理解和推理的语音到语音转换
识别语音边界和中断的语音活动检测
允许用户自然打断代理的打断支持
对话中用于API集成和后端操作的函数调用
维护完整对话历史的上下文感知

Stream Vision Agents框架增加了什么？

Stream Vision Agents框架抽象了管理双向音频流的复杂性。使用事件驱动的双向流式API而非传统的请求-响应模式，使开发团队能够以最少代码构建生产级语音应用。该框架处理连接管理、抖动缓冲、丢包恢复和自适应比特率压缩。

该方式将Amazon定位于OpenAI实时API、ElevenLabs对话和Google Gemini Live主导的实时语音代理领域。入场代价是与Bedrock生态系统的集成——对已在AWS环境中的客户来说是合理的权衡。

常见问题

Nova 2 Sonic与Nova Sonic 1有何区别？

Nova 2 Sonic是新一代基础模型，端到端延迟低于500毫秒（优于Nova Sonic 1），原生轮次检测无需外部VAD库，支持打断和对话中函数调用——Nova Sonic 1需要Stream Vision Agents框架才能实现同等功能。

Amazon具体公布了哪些延迟指标？

端到端延迟通常低于500毫秒，通过Stream边缘网络音频延迟低于30毫秒，建立连接时加入时间低于500毫秒——所有指标均在允许自然对话而无可感知延迟的阈值内。

Amazon Nova 2 Sonic: 端到端延迟低于500毫秒、音频延迟低于30毫秒的语音到语音基础模型

Nova 2 Sonic如何改变语音代理架构？

Amazon具体公布了哪些延迟指标？

该模型提供哪些功能？

Stream Vision Agents框架增加了什么？

常见问题

来源

相关新闻