Amazon Nova 2 Sonic: 엔드투엔드 지연 500ms 미만·오디오 지연 30ms 미만의 음성 대 음성 기반 모델
Amazon Nova 2 Sonic은 2026년 5월 14일 Amazon Bedrock을 통해 발표된 2세대 음성 대 음성 기반 모델입니다. 별도의 음성 인식 및 음성 합성 서비스의 필요성을 제거하며, 엔드투엔드 지연 500ms 미만, Stream 엣지 네트워크를 통한 오디오 지연 30ms 미만, 네이티브 턴 감지, 끼어들기 지원, 대화 중 함수 호출을 제공합니다. Stream Vision Agents 프레임워크가 양방향 오디오 스트림 관리를 추상화합니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
Amazon Web Services는 2026년 5월 14일 Amazon Nova 2 Sonic을 출시했습니다——Amazon Bedrock을 통해 제공되는 2세대 음성 대 음성 기반 모델입니다. 새 모델은 기존 음성 에이전트 스택의 파이프라인 복잡성을 제거하고 자연스러운 인간 대화를 가능하게 하는 임계값 이하로 지연 벤치마크를 낮춥니다.
Nova 2 Sonic은 음성 에이전트 아키텍처를 어떻게 바꿉니까?
기존 음성 에이전트 스택은 세 가지 별도 서비스를 사용합니다: 음성 인식(STT), LLM 추론, 음성 합성(TTS). 각각이 지연과 오류 포인트를 추가합니다. Nova 2 Sonic은 음성 대 음성 기반 모델——입력 음성을 직접 이해하고 출력 오디오를 생성하여 STT/TTS 레이어를 제거합니다. 결과적으로 엔드투엔드 지연은 “통상 500밀리초 미만”입니다.
Amazon이 구체적으로 언급한 지연 수치는?
Nova 2 Sonic을 프로덕션 환경에 자리매김시키는 세 가지 핵심 지표:
- 엔드투엔드 지연: 통상 500밀리초 미만
- 오디오 지연: Stream 엣지 네트워크를 통해 30밀리초 미만
- 참여 시간: 연결 설정 시 500ms 미만
이러한 임계값은 “지각 가능한 지연 없는 자연스러운 대화 흐름”을 가능하게 합니다——대화 상대가 통신 품질을 저하시키는 교차 일시 중지를 느끼지 않습니다.
모델이 제공하는 기능은?
Nova 2 Sonic은 하나의 모델에서 다섯 가지 능력을 결합합니다:
- 이해와 추론을 갖춘 음성 대 음성 변환
- 음성 경계와 중단을 식별하는 음성 활동 감지
- 사용자가 자연스럽게 에이전트를 중단할 수 있는 끼어들기 지원
- API 통합 및 백엔드 작업을 위한 대화 중 함수 호출
- 전체 대화 이력을 유지하는 컨텍스트 인식
Stream Vision Agents 프레임워크는 무엇을 추가합니까?
Stream Vision Agents 프레임워크는 양방향 오디오 스트림 관리의 복잡성을 추상화합니다. 기존 요청-응답 패턴이 아닌 이벤트 기반 양방향 스트리밍 API를 사용하여 개발팀이 최소한의 코드로 프로덕션급 음성 애플리케이션을 구축할 수 있게 합니다. 프레임워크는 연결 관리, 지터 버퍼링, 패킷 손실 복구, 적응형 비트레이트 압축을 처리합니다.
이 접근 방식은 OpenAI 실시간 API, ElevenLabs Conversational, Google Gemini Live가 지배하는 실시간 음성 에이전트 분야에 Amazon을 자리매김합니다. 진입 비용은 Bedrock 에코시스템과의 통합입니다——이미 AWS 환경에 있는 고객에게는 합리적인 트레이드오프입니다.
자주 묻는 질문
- Nova 2 Sonic은 Nova Sonic 1과 어떻게 다릅니까?
- Nova 2 Sonic은 엔드투엔드 지연 500ms 미만(Nova Sonic 1보다 짧음), 외부 VAD 라이브러리 없는 네이티브 턴 감지, 끼어들기 지원, 대화 중 함수 호출을 갖춘 새로운 세대 기반 모델입니다. Nova Sonic 1은 동등한 기능에 Stream Vision Agents 프레임워크가 필요했습니다.
- Amazon이 구체적으로 언급한 지연 수치는?
- 엔드투엔드 지연은 통상 500밀리초 미만, Stream 엣지 네트워크를 통한 오디오 지연은 30밀리초 미만, 연결 설정 시 참여 시간은 500ms 미만——모두 지각 가능한 지연 없이 자연스러운 대화를 가능하게 하는 임계값 내입니다.