🟡 🤖 模型 发布于: · 2 分钟阅读 ·

Amazon Nova 2 Sonic: 端到端延迟低于500毫秒、音频延迟低于30毫秒的语音到语音基础模型

编辑插图:语音代理,附声波和边缘网络图形。

Amazon Nova 2 Sonic是第二代语音到语音基础模型,于2026年5月14日通过Amazon Bedrock发布。消除了对独立语音转文字和文字转语音服务的需求——端到端延迟低于500毫秒,通过Stream边缘网络音频延迟低于30毫秒,原生轮次检测、打断支持及对话中的函数调用。Stream Vision Agents框架抽象了双向音频流管理。

🤖

本文由人工智能基于一手来源生成。

Amazon Web Services于2026年5月14日推出Amazon Nova 2 Sonic——通过Amazon Bedrock提供的第二代语音到语音基础模型。新模型消除了传统语音代理技术栈的管道复杂性,将延迟基准推低至支持自然人类对话的阈值以下。

Nova 2 Sonic如何改变语音代理架构?

传统语音代理技术栈使用三个独立服务:语音转文字(STT)LLM推理文字转语音(TTS)。每个都增加延迟和故障点。Nova 2 Sonic是语音到语音基础模型——直接理解输入语音并生成输出音频,消除了STT/TTS层。结果是端到端延迟「通常低于500毫秒」。

Amazon具体公布了哪些延迟指标?

三项关键指标将Nova 2 Sonic定位于生产环境:

  • 端到端延迟:通常低于500毫秒
  • 音频延迟:通过Stream边缘网络低于30毫秒
  • 加入时间:建立连接时低于500毫秒

这些阈值实现了「自然对话流而无可感知延迟」——对话伙伴不会感受到降低通信质量的交叉停顿。

该模型提供哪些功能?

Nova 2 Sonic在单一模型中结合了五项能力:

  • 具备理解和推理的语音到语音转换
  • 识别语音边界和中断的语音活动检测
  • 允许用户自然打断代理的打断支持
  • 对话中用于API集成和后端操作的函数调用
  • 维护完整对话历史的上下文感知

Stream Vision Agents框架增加了什么?

Stream Vision Agents框架抽象了管理双向音频流的复杂性。使用事件驱动的双向流式API而非传统的请求-响应模式,使开发团队能够以最少代码构建生产级语音应用。该框架处理连接管理、抖动缓冲、丢包恢复和自适应比特率压缩。

该方式将Amazon定位于OpenAI实时API、ElevenLabs对话和Google Gemini Live主导的实时语音代理领域。入场代价是与Bedrock生态系统的集成——对已在AWS环境中的客户来说是合理的权衡。

常见问题

Nova 2 Sonic与Nova Sonic 1有何区别?
Nova 2 Sonic是新一代基础模型,端到端延迟低于500毫秒(优于Nova Sonic 1),原生轮次检测无需外部VAD库,支持打断和对话中函数调用——Nova Sonic 1需要Stream Vision Agents框架才能实现同等功能。
Amazon具体公布了哪些延迟指标?
端到端延迟通常低于500毫秒,通过Stream边缘网络音频延迟低于30毫秒,建立连接时加入时间低于500毫秒——所有指标均在允许自然对话而无可感知延迟的阈值内。