Amazon Nova Sonic + WebRTC:实时语音智能体通过Kinesis Video Streams与异步工具调用支持RAG/MCP
Amazon Nova Sonic + WebRTC集成是AWS于2026年5月13日发布的实时语音智能体应用新架构。语音转语音事件处理器通过Kinesis Video Streams WebRTC信令编排媒体和文本数据事件,同时服务端VAD减少音频令牌消耗。Nova Sonic支持向MCP服务器、Strands智能体和RAG系统的异步工具调用——物联网和网联汽车场景为首批演示案例。
本文由人工智能基于一手来源生成。
亚马逊云科技于2026年5月13日发布了将Nova Sonic语音转语音模型与Kinesis Video Streams WebRTC流水线相结合的架构——这是实时语音智能体应用的参考蓝图,支持通过异步工具调用接入MCP服务器和RAG系统。
Nova Sonic与WebRTC如何分工协作?
该架构引入语音转语音事件处理器,在WebRTC流和Nova Sonic模型之间「编排输入和输出事件」。通信分为媒体事件(通过WebRTC传输音频)和文本数据(通过数据通道传输)。WebRTC通过Kinesis Video Streams信令通道建立点对点链接,支持具有自适应码率控制和前向纠错的双向音视频传输。
服务端VAD有何贡献?
语音活动检测(VAD)在服务端使用Python WebRTCVAD库。检测在流到达Nova Sonic之前抑制噪声并减少音频令牌量。此方法有两个优势:降低推理成本(更少令牌 = 更低Bedrock费用),同时改善延迟,因为Nova Sonic无需处理长段静音。
Nova Sonic如何在对话中调用工具?
Nova Sonic在语音会话期间支持向MCP服务器、Strands智能体或RAG系统发起异步工具调用。用户在与语音助手对话时可以询问「车库现在的温度是多少?」,智能体同时调用返回传感器读数的MCP服务器,而不会中断对话。异步方式至关重要,因为语音延迟预算(250-500毫秒)不允许同步RAG查询暂停。
首批演示使用场景有哪些?
AWS展示了两种场景。智能家居:语音命令通过MQTT协议控制物联网设备,与Amazon Bedrock知识库和MCP服务器集成——智能体了解设备状态并能控制它们。网联汽车:实时驾驶员监控检测手机使用行为,语音助手通过独立监控流确认安全状态——将语音智能体转变为安全工具,而不仅是娱乐界面。
在媒体流协议中,WebRTC提供最低延迟(RTMP、RTSP、HLS、MPEG-DASH相比之下延迟更高)——对于超过500毫秒延迟会降低对话质量感知的语音智能体而言至关重要。
常见问题
- 什么是Amazon Nova 2 Sonic?
- Nova 2 Sonic是与Kinesis Video Streams WebRTC流水线集成的Amazon语音转语音模型;支持向MCP服务器、Strands智能体和Bedrock知识库RAG系统的异步工具调用,使语音智能体具备多模态能力。
- 语音活动检测在此架构中如何工作?
- 服务端VAD使用Python WebRTCVAD库进行噪声抑制并减少音频令牌量,在流到达Nova Sonic之前处理——从而直接降低推理成本并改善延迟。