AWS Nova Sonic：可扩展语音智能体的三种模式

AWS发布了使用Amazon Nova Sonic和AgentCore Gateway构建可扩展语音智能体的详细指南。三种架构模式——直接工具、子智能体和会话分段——提供不同的延迟与操作复杂性权衡。

Amazon Nova Sonic是AWS的基础语音AI模型——能进行实时对话、理解语气和上下文，并可在语音会话期间直接调用外部工具。与传统流水线解决方案不同，Nova Sonic从输入到输出全程处理语音，无需中间转录步骤。

什么是AgentCore Gateway，为何重要？

AgentCore Gateway是一种无服务器基础设施，将业务逻辑作为MCP（Model Context Protocol）工具暴露出来——Nova Sonic可以在无需中间推理层的情况下直接调用的托管端点。在此上下文中，语音智能体是指接收语音输入、理解意图并通过语音响应实时执行操作的AI系统。

Gateway的核心优势是消除中间层延迟：当用户提出问题时，模型直接调用工具并在同一会话中返回响应，无需将控制权转交给独立的智能体编排器。

三种模式中哪种延迟最低？

AWS描述了三种架构模式，每种都有明确的权衡：

直接工具 — Nova Sonic通过AgentCore Gateway直接调用MCP工具。架构最简单，延迟低，但对多步骤工作流的扩展性较差。
子智能体 — 复杂任务委托给拥有自身模型和工具的专业智能体。建议使用较小模型（Nova Lite或Micro）以减少子智能体推理带来的额外延迟。
会话分段 — 对话划分为若干阶段（如身份验证→账户管理→信用查询），每个阶段作为独立的Nova Sonic会话，拥有专注的提示词和最小工具集。前一阶段的上下文作为对话历史传递。

会话分段实现最低的运营延迟，因为每个会话只携带与该阶段相关的工具——更小的工具集意味着更快的选择和更少的系统提示开销。唯一代价是阶段切换时的短暂停顿。

实用的延迟优化技巧

AWS列出了几项具体技术：并行调用独立工具（Strands框架原生支持）、身份验证后立即预取用户数据，以及使用填充短语如「让我查一下……」来掩盖工具调用的时间开销。这三项技术可独立应用于任何所选架构模式。

来源：AWS Machine Learning Blog

常见问题

Amazon Nova Sonic是什么，与传统语音流水线解决方案有何不同？

Amazon Nova Sonic是AWS的基础语音AI模型，无需中间转录步骤即可处理对话——理解语气和上下文，并可在实时语音会话期间直接调用外部工具。

三种架构模式中哪种延迟最低？

会话分段（会话分割）实现最低的操作延迟，因为每个对话阶段只携带与该阶段相关的工具——更小的工具集意味着更快的选择和更少的系统提示开销。

AgentCore Gateway如何加快语音智能体中的工具调用？

AgentCore Gateway将业务逻辑作为MCP工具暴露，Nova Sonic无需中间推理层即可直接调用——消除了中间层延迟，模型在同一语音会话中直接调用工具并返回响应。

AWS：Amazon Nova Sonic可扩展语音智能体的三种架构模式

什么是AgentCore Gateway，为何重要？

三种模式中哪种延迟最低？

实用的延迟优化技巧

常见问题

来源

相关新闻