AWS:Amazon Nova Sonic으로 확장 가능한 음성 에이전트를 위한 세 가지 아키텍처 패턴
AWS는 Amazon Nova Sonic과 AgentCore Gateway를 사용하는 확장 가능한 음성 에이전트를 위한 상세 가이드를 발표했습니다. 직접 도구, 하위 에이전트, 세션 분할이라는 세 가지 아키텍처 패턴은 지연 시간과 운영 복잡성 사이의 다양한 트레이드오프를 제공합니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
Amazon Nova Sonic은 AWS의 기반 음성 AI 모델입니다 — 실시간으로 대화하고, 톤과 컨텍스트를 이해하며, 음성 세션 중에 직접 외부 도구를 호출할 수 있습니다. 기존 파이프라인 솔루션과 달리 Nova Sonic은 중간 전사 단계 없이 입력부터 출력까지 음성을 처리합니다.
AgentCore Gateway는 무엇이며 왜 중요한가요?
AgentCore Gateway는 비즈니스 로직을 MCP(Model Context Protocol) 도구 — Nova Sonic이 중간 추론 레이어 없이 호출할 수 있는 관리형 엔드포인트 — 로 노출하는 서버리스 인프라입니다. 이 맥락에서 음성 에이전트는 음성 입력을 받아 의도를 이해하고 음성 응답을 통해 실시간으로 작업을 실행하는 AI 시스템을 의미합니다.
Gateway의 핵심 장점은 중간 계층 지연 제거입니다. 사용자가 질문하면 모델이 동일한 세션 내에서 직접 도구를 호출하고 응답을 반환하며, 별도의 에이전트 오케스트레이터로 제어를 전달할 필요가 없습니다.
세 가지 패턴 중 지연이 가장 낮은 것은 무엇인가요?
AWS는 세 가지 아키텍처 패턴을 설명하며 각각 명확한 트레이드오프가 있습니다.
- 직접 도구 — Nova Sonic이 AgentCore Gateway를 통해 MCP 도구를 직접 호출합니다. 가장 단순한 아키텍처로 낮은 지연을 제공하지만 다단계 워크플로우로의 확장성이 낮습니다.
- 하위 에이전트 — 복잡한 작업은 자체 모델과 도구를 가진 전문 에이전트에 위임됩니다. 하위 에이전트 추론으로 인한 추가 지연을 줄이기 위해 더 작은 모델(Nova Lite 또는 Micro) 사용이 권장됩니다.
- 세션 분할 — 대화를 단계(예: 인증→계정 관리→크레딧 조회)로 나누고, 각 단계를 집중된 프롬프트와 최소한의 도구 세트를 가진 독립적인 Nova Sonic 세션으로 처리합니다. 이전 단계의 컨텍스트는 대화 이력으로 전달됩니다.
세션 분할은 가장 낮은 운영 지연을 달성합니다. 각 세션이 해당 단계와 관련된 도구만 보유하기 때문입니다 — 더 작은 도구 세트는 더 빠른 선택과 시스템 프롬프트 오버헤드 감소를 의미합니다. 유일한 비용은 단계 전환 시의 짧은 일시 중지입니다.
실용적인 지연 시간 최적화
AWS는 몇 가지 구체적인 기술을 제시합니다. 독립 도구의 병렬 호출(Strands 프레임워크에서 기본 지원), 인증 직후 사용자 데이터 미리 가져오기, 그리고 “잠시 확인해 보겠습니다…”와 같은 필러 문구를 사용하여 도구 호출의 시간 비용을 마스킹하는 것입니다. 이 세 가지 기술은 선택한 아키텍처 패턴에 관계없이 적용할 수 있습니다.
출처: AWS Machine Learning Blog
자주 묻는 질문
- Amazon Nova Sonic은 무엇이며 기존 음성 파이프라인 솔루션과 어떻게 다른가요?
- Amazon Nova Sonic은 AWS의 기반 음성 AI 모델로 중간 전사 단계 없이 대화를 처리합니다——톤과 컨텍스트를 이해하고 실시간 음성 세션 중에 외부 도구를 직접 호출할 수 있습니다.
- 세 가지 아키텍처 패턴 중 지연이 가장 낮은 것은 무엇인가요?
- 세션 분할(세션 세그멘테이션)이 가장 낮은 운영 지연을 달성합니다. 각 대화 단계가 해당 단계와 관련된 도구만 보유하기 때문입니다——더 작은 도구 세트는 더 빠른 선택과 시스템 프롬프트 오버헤드 감소를 의미합니다.
- AgentCore Gateway는 음성 에이전트에서 도구 호출을 어떻게 가속화하나요?
- AgentCore Gateway는 비즈니스 로직을 MCP 도구로 노출하여 Nova Sonic이 중간 추론 레이어 없이 직접 호출할 수 있게 합니다——중간 계층 지연을 제거하며 모델이 동일한 음성 세션 내에서 도구를 직접 호출하고 응답을 반환합니다.