🟡 🤝 智能体 发布于: · 2 分钟阅读 ·

AWS:Amazon Nova Sonic可扩展语音智能体的三种架构模式

Editorial illustration:

AWS发布了使用Amazon Nova Sonic和AgentCore Gateway构建可扩展语音智能体的详细指南。三种架构模式——直接工具、子智能体和会话分段——提供不同的延迟与操作复杂性权衡。

🤖

本文由人工智能基于一手来源生成。

Amazon Nova Sonic是AWS的基础语音AI模型——能进行实时对话、理解语气和上下文,并可在语音会话期间直接调用外部工具。与传统流水线解决方案不同,Nova Sonic从输入到输出全程处理语音,无需中间转录步骤。

什么是AgentCore Gateway,为何重要?

AgentCore Gateway是一种无服务器基础设施,将业务逻辑作为MCP(Model Context Protocol)工具暴露出来——Nova Sonic可以在无需中间推理层的情况下直接调用的托管端点。在此上下文中,语音智能体是指接收语音输入、理解意图并通过语音响应实时执行操作的AI系统。

Gateway的核心优势是消除中间层延迟:当用户提出问题时,模型直接调用工具并在同一会话中返回响应,无需将控制权转交给独立的智能体编排器。

三种模式中哪种延迟最低?

AWS描述了三种架构模式,每种都有明确的权衡:

  • 直接工具 — Nova Sonic通过AgentCore Gateway直接调用MCP工具。架构最简单,延迟低,但对多步骤工作流的扩展性较差。
  • 子智能体 — 复杂任务委托给拥有自身模型和工具的专业智能体。建议使用较小模型(Nova Lite或Micro)以减少子智能体推理带来的额外延迟。
  • 会话分段 — 对话划分为若干阶段(如身份验证→账户管理→信用查询),每个阶段作为独立的Nova Sonic会话,拥有专注的提示词和最小工具集。前一阶段的上下文作为对话历史传递。

会话分段实现最低的运营延迟,因为每个会话只携带与该阶段相关的工具——更小的工具集意味着更快的选择和更少的系统提示开销。唯一代价是阶段切换时的短暂停顿。

实用的延迟优化技巧

AWS列出了几项具体技术:并行调用独立工具(Strands框架原生支持)、身份验证后立即预取用户数据,以及使用填充短语如「让我查一下……」来掩盖工具调用的时间开销。这三项技术可独立应用于任何所选架构模式。


来源:AWS Machine Learning Blog

常见问题

Amazon Nova Sonic是什么,与传统语音流水线解决方案有何不同?
Amazon Nova Sonic是AWS的基础语音AI模型,无需中间转录步骤即可处理对话——理解语气和上下文,并可在实时语音会话期间直接调用外部工具。
三种架构模式中哪种延迟最低?
会话分段(会话分割)实现最低的操作延迟,因为每个对话阶段只携带与该阶段相关的工具——更小的工具集意味着更快的选择和更少的系统提示开销。
AgentCore Gateway如何加快语音智能体中的工具调用?
AgentCore Gateway将业务逻辑作为MCP工具暴露,Nova Sonic无需中间推理层即可直接调用——消除了中间层延迟,模型在同一语音会话中直接调用工具并返回响应。