🟡 🤖 모델 게시일: · 2 분 읽기 ·

Amazon Nova 2 Sonic: 엔드투엔드 지연 500ms 미만·오디오 지연 30ms 미만의 음성 대 음성 기반 모델

편집 일러스트: 음성 파형과 엣지 네트워크 그래픽이 있는 음성 에이전트.

Amazon Nova 2 Sonic은 2026년 5월 14일 Amazon Bedrock을 통해 발표된 2세대 음성 대 음성 기반 모델입니다. 별도의 음성 인식 및 음성 합성 서비스의 필요성을 제거하며, 엔드투엔드 지연 500ms 미만, Stream 엣지 네트워크를 통한 오디오 지연 30ms 미만, 네이티브 턴 감지, 끼어들기 지원, 대화 중 함수 호출을 제공합니다. Stream Vision Agents 프레임워크가 양방향 오디오 스트림 관리를 추상화합니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.

Amazon Web Services는 2026년 5월 14일 Amazon Nova 2 Sonic을 출시했습니다——Amazon Bedrock을 통해 제공되는 2세대 음성 대 음성 기반 모델입니다. 새 모델은 기존 음성 에이전트 스택의 파이프라인 복잡성을 제거하고 자연스러운 인간 대화를 가능하게 하는 임계값 이하로 지연 벤치마크를 낮춥니다.

Nova 2 Sonic은 음성 에이전트 아키텍처를 어떻게 바꿉니까?

기존 음성 에이전트 스택은 세 가지 별도 서비스를 사용합니다: 음성 인식(STT), LLM 추론, 음성 합성(TTS). 각각이 지연과 오류 포인트를 추가합니다. Nova 2 Sonic은 음성 대 음성 기반 모델——입력 음성을 직접 이해하고 출력 오디오를 생성하여 STT/TTS 레이어를 제거합니다. 결과적으로 엔드투엔드 지연은 “통상 500밀리초 미만”입니다.

Amazon이 구체적으로 언급한 지연 수치는?

Nova 2 Sonic을 프로덕션 환경에 자리매김시키는 세 가지 핵심 지표:

  • 엔드투엔드 지연: 통상 500밀리초 미만
  • 오디오 지연: Stream 엣지 네트워크를 통해 30밀리초 미만
  • 참여 시간: 연결 설정 시 500ms 미만

이러한 임계값은 “지각 가능한 지연 없는 자연스러운 대화 흐름”을 가능하게 합니다——대화 상대가 통신 품질을 저하시키는 교차 일시 중지를 느끼지 않습니다.

모델이 제공하는 기능은?

Nova 2 Sonic은 하나의 모델에서 다섯 가지 능력을 결합합니다:

  • 이해와 추론을 갖춘 음성 대 음성 변환
  • 음성 경계와 중단을 식별하는 음성 활동 감지
  • 사용자가 자연스럽게 에이전트를 중단할 수 있는 끼어들기 지원
  • API 통합 및 백엔드 작업을 위한 대화 중 함수 호출
  • 전체 대화 이력을 유지하는 컨텍스트 인식

Stream Vision Agents 프레임워크는 무엇을 추가합니까?

Stream Vision Agents 프레임워크는 양방향 오디오 스트림 관리의 복잡성을 추상화합니다. 기존 요청-응답 패턴이 아닌 이벤트 기반 양방향 스트리밍 API를 사용하여 개발팀이 최소한의 코드로 프로덕션급 음성 애플리케이션을 구축할 수 있게 합니다. 프레임워크는 연결 관리, 지터 버퍼링, 패킷 손실 복구, 적응형 비트레이트 압축을 처리합니다.

이 접근 방식은 OpenAI 실시간 API, ElevenLabs Conversational, Google Gemini Live가 지배하는 실시간 음성 에이전트 분야에 Amazon을 자리매김합니다. 진입 비용은 Bedrock 에코시스템과의 통합입니다——이미 AWS 환경에 있는 고객에게는 합리적인 트레이드오프입니다.

자주 묻는 질문

Nova 2 Sonic은 Nova Sonic 1과 어떻게 다릅니까?
Nova 2 Sonic은 엔드투엔드 지연 500ms 미만(Nova Sonic 1보다 짧음), 외부 VAD 라이브러리 없는 네이티브 턴 감지, 끼어들기 지원, 대화 중 함수 호출을 갖춘 새로운 세대 기반 모델입니다. Nova Sonic 1은 동등한 기능에 Stream Vision Agents 프레임워크가 필요했습니다.
Amazon이 구체적으로 언급한 지연 수치는?
엔드투엔드 지연은 통상 500밀리초 미만, Stream 엣지 네트워크를 통한 오디오 지연은 30밀리초 미만, 연결 설정 시 참여 시간은 500ms 미만——모두 지각 가능한 지연 없이 자연스러운 대화를 가능하게 하는 임계값 내입니다.