AWS：Nova Sonic语音智能体 + WebRTC流

Amazon Nova Sonic + WebRTC集成是AWS于2026年5月13日发布的实时语音智能体应用新架构。语音转语音事件处理器通过Kinesis Video Streams WebRTC信令编排媒体和文本数据事件，同时服务端VAD减少音频令牌消耗。Nova Sonic支持向MCP服务器、Strands智能体和RAG系统的异步工具调用——物联网和网联汽车场景为首批演示案例。

亚马逊云科技于2026年5月13日发布了将Nova Sonic语音转语音模型与Kinesis Video Streams WebRTC流水线相结合的架构——这是实时语音智能体应用的参考蓝图，支持通过异步工具调用接入MCP服务器和RAG系统。

Nova Sonic与WebRTC如何分工协作？

该架构引入语音转语音事件处理器，在WebRTC流和Nova Sonic模型之间「编排输入和输出事件」。通信分为媒体事件（通过WebRTC传输音频）和文本数据（通过数据通道传输）。WebRTC通过Kinesis Video Streams信令通道建立点对点链接，支持具有自适应码率控制和前向纠错的双向音视频传输。

服务端VAD有何贡献？

语音活动检测（VAD）在服务端使用Python WebRTCVAD库。检测在流到达Nova Sonic之前抑制噪声并减少音频令牌量。此方法有两个优势：降低推理成本（更少令牌 = 更低Bedrock费用），同时改善延迟，因为Nova Sonic无需处理长段静音。

Nova Sonic如何在对话中调用工具？

Nova Sonic在语音会话期间支持向MCP服务器、Strands智能体或RAG系统发起异步工具调用。用户在与语音助手对话时可以询问「车库现在的温度是多少？」，智能体同时调用返回传感器读数的MCP服务器，而不会中断对话。异步方式至关重要，因为语音延迟预算（250-500毫秒）不允许同步RAG查询暂停。

首批演示使用场景有哪些？

AWS展示了两种场景。智能家居：语音命令通过MQTT协议控制物联网设备，与Amazon Bedrock知识库和MCP服务器集成——智能体了解设备状态并能控制它们。网联汽车：实时驾驶员监控检测手机使用行为，语音助手通过独立监控流确认安全状态——将语音智能体转变为安全工具，而不仅是娱乐界面。

在媒体流协议中，WebRTC提供最低延迟（RTMP、RTSP、HLS、MPEG-DASH相比之下延迟更高）——对于超过500毫秒延迟会降低对话质量感知的语音智能体而言至关重要。

常见问题

什么是Amazon Nova 2 Sonic？

Nova 2 Sonic是与Kinesis Video Streams WebRTC流水线集成的Amazon语音转语音模型；支持向MCP服务器、Strands智能体和Bedrock知识库RAG系统的异步工具调用，使语音智能体具备多模态能力。

语音活动检测在此架构中如何工作？

服务端VAD使用Python WebRTCVAD库进行噪声抑制并减少音频令牌量，在流到达Nova Sonic之前处理——从而直接降低推理成本并改善延迟。

Amazon Nova Sonic + WebRTC：实时语音智能体通过Kinesis Video Streams与异步工具调用支持RAG/MCP

Nova Sonic与WebRTC如何分工协作？

服务端VAD有何贡献？

Nova Sonic如何在对话中调用工具？

首批演示使用场景有哪些？

常见问题

来源

相关新闻