Amazon Nova Sonic + WebRTC: Kinesis Video Streams와 RAG/MCP를 위한 비동기 도구 호출을 통한 실시간 음성 에이전트
Amazon Nova Sonic + WebRTC 통합은 2026년 5월 13일 AWS가 발표한 실시간 음성 에이전트 애플리케이션을 위한 새로운 아키텍처입니다. 음성 대 음성 이벤트 프로세서가 Kinesis Video Streams WebRTC 시그널링을 통해 미디어와 텍스트 데이터 이벤트를 오케스트레이션하며, 서버 사이드 VAD가 오디오 토큰을 줄입니다. Nova Sonic은 MCP 서버, Strands 에이전트, RAG 시스템으로의 비동기 도구 호출을 지원하며, IoT와 커넥티드 차량 시나리오가 첫 번째 데모입니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
Amazon Web Services는 2026년 5월 13일 Nova Sonic 음성 대 음성 모델과 Kinesis Video Streams WebRTC 파이프라인을 결합한 아키텍처를 발표했습니다——MCP 서버 및 RAG 시스템으로의 비동기 도구 호출 접근 방식을 갖춘 실시간 음성 에이전트 애플리케이션의 참조 블루프린트입니다.
Nova Sonic과 WebRTC는 어떻게 역할을 분담합니까?
아키텍처는 WebRTC 스트림과 Nova Sonic 모델 사이에서 「입출력 이벤트를 오케스트레이션」하는 음성 대 음성 이벤트 프로세서를 도입합니다. 통신은 미디어 이벤트(WebRTC를 통한 오디오)와 텍스트 데이터(데이터 채널을 통해)로 나뉩니다. WebRTC는 Kinesis Video Streams 시그널링 채널을 통해 피어 투 피어 링크를 설정하여 적응형 비트레이트 제어와 전방 오류 수정을 통한 양방향 오디오/비디오 전송을 가능하게 합니다.
서버 사이드 VAD는 무엇에 기여합니까?
음성 활동 감지(VAD)는 서버 측에서 Python WebRTCVAD 라이브러리를 사용합니다. 감지는 스트림이 Nova Sonic에 도달하기 전에 노이즈를 억제하고 오디오 토큰 볼륨을 줄입니다. 이 접근 방식에는 두 가지 이점이 있습니다: 추론 비용 절감(토큰이 적음 = Bedrock 비용 감소)과 Nova Sonic이 긴 침묵 세그먼트를 처리할 필요가 없어지는 지연 시간 개선입니다.
Nova Sonic은 대화 중에 어떻게 도구를 호출합니까?
Nova Sonic은 음성 세션 중 MCP 서버, Strands 에이전트 또는 RAG 시스템으로의 비동기 도구 호출을 지원합니다. 사용자는 음성 어시스턴트와의 대화 중에 「차고의 현재 온도는?」라고 물을 수 있으며, 에이전트는 대화를 중단하지 않고 센서 읽기값을 반환하는 MCP 서버를 동시에 호출합니다. 음성 지연 예산(250~500ms)이 동기 RAG 조회 일시 중지를 허용하지 않기 때문에 비동기 접근 방식이 필수적입니다.
첫 번째 시연 사용 사례는 무엇입니까?
AWS는 두 가지 시나리오를 제시합니다. 스마트 홈: 음성 명령이 MQTT 프로토콜을 통해 IoT 장치를 제어하며, Amazon Bedrock 지식 기반과 MCP 서버와 통합됩니다——에이전트는 장치 상태를 알고 제어할 수 있습니다. 커넥티드 차량: 실시간 운전자 모니터링이 휴대폰 사용 행동을 감지하고, 음성 어시스턴트가 독립적인 모니터링 스트림을 통해 안전 상태를 확인합니다——음성 에이전트를 엔터테인먼트 인터페이스가 아닌 안전 도구로 만듭니다.
WebRTC는 미디어 스트리밍 프로토콜(RTMP, RTSP, HLS, MPEG-DASH) 중에서 가장 낮은 지연 시간을 제공합니다——500ms 이상의 지연이 대화 품질 인식을 저하시키는 음성 에이전트에서 중요합니다.
자주 묻는 질문
- Amazon Nova 2 Sonic이란 무엇입니까?
- Nova 2 Sonic은 Kinesis Video Streams WebRTC 파이프라인과 통합된 Amazon의 음성 대 음성 모델입니다. MCP 서버, Strands 에이전트, Bedrock 지식 기반 RAG 시스템으로의 비동기 도구 호출을 지원하여 음성 에이전트를 멀티모달로 만듭니다.
- 이 아키텍처에서 음성 활동 감지는 어떻게 작동합니까?
- 서버 사이드 VAD는 Python WebRTCVAD 라이브러리를 사용하여 노이즈를 억제하고 스트림이 Nova Sonic에 도달하기 전에 오디오 토큰 볼륨을 줄입니다——이를 통해 추론 비용을 직접 절감하고 지연 시간을 개선합니다.