AWS Bedrock AgentCore Optimization 프리뷰 출시:OpenTelemetry 트레이스로 생산에서 A/B 테스트까지 자동화 루프 구현
AWS가 2026년 5월 4일 AgentCore Optimization을 프리뷰로 발표했습니다. 프로덕션 트레이스에서 시스템 프롬프트와 도구 설명에 대한 구체적인 개선 제안을 생성하고, 테스트 세트에 대한 배치 평가, 통계적 유의성을 갖춘 A/B 테스트를 수행하는 자동화 루프입니다. 시스템은 모든 모델 호출, 도구 호출, 추론 단계를 OpenTelemetry 호환 트레이스로 수집하여 수동 추측 수정을 프로덕션 데이터 기반의 구조화된 사이클로 대체합니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
AWS는 2026년 5월 4일 머신러닝 블로그에서 Amazon Bedrock 내 새로운 프리뷰 기능으로 AgentCore Optimization을 발표했습니다. 이 시스템의 목표는 지금까지 표준적인 최적화 방식이었던 수동 프롬프트 수정과 추측 없이 프로덕션 환경의 에이전트를 개선하는 것입니다.
시스템이 구체적으로 자동화하는 것은?
AgentCore Optimization은 세 가지 핵심 컴포넌트를 제공합니다:
- Recommendations(추천) — 프로덕션 트레이스와 평가 결과를 분석하여 시스템 프롬프트나 도구 설명에 대한 구체적인 수정을 제안합니다. 엔지니어가 제안을 작성할 필요 없이 시스템이 실제 데이터에서 생성합니다.
- Batch evaluation(배치 평가) — 사전 정의된 테스트 세트에 대해 제안을 테스트하여 변경이 제안을 트리거한 예시뿐만 아니라 더 넓은 케이스에서도 개선인지 확인합니다.
- A/B testing(A/B 테스트) — 통계적 유의성 데이터를 갖춘 구버전과 신버전 에이전트 간의 대조 실험으로, 즉흥적인 「주관적으로 더 나은 것 같다」는 배포를 방지합니다.
시스템이 프로덕션 데이터를 어떻게 수집하는가?
AgentCore의 엔드투엔드 추적 가능성은 모든 모델 호출, 도구 호출, 추론 단계를 OpenTelemetry 호환 트레이스로 기록합니다(OpenTelemetry——분산 시스템 추적을 위한 개방형 표준). 이미 스택에 OTEL을 사용하는 기업은 추가 계측 없이 기존 인프라를 임포트할 수 있습니다.
결과적으로 AgentCore Optimization은 엔지니어가 수동으로 만든 합성 테스트가 아닌 실제 프로덕션 예시에서 동작합니다. 시스템은 실제 조건에서 에이전트가 어떤 프롬프트를 받는지, 어디서 실패하는지, 그 실패가 도구 호출을 통해 어떻게 전파되는지를 확인합니다.
이는 에이전트의 운영 관리에 무엇을 바꾸는가?
2026년 대부분의 엔터프라이즈 에이전트는 POC와 완전한 프로덕션 사이에 갇혀 있습니다. 이유는 팀이 프롬프트 변경이 행동에 어떻게 영향을 미치는지 체계적으로 측정하는 방법이 없기 때문입니다. AgentCore Optimization은 정확히 그 간극을 해결합니다: 시스템은 프로덕션 데이터에서 학습하고 측정 가능한 효과를 가진 수정을 제안하는 장치가 됩니다.
AWS는 블로그 포스트에서 투자 브로커를 위한 시장 동향 에이전트 예시를 사용하지만 구체적인 벤치마크 수치는 제공하지 않습니다. 이는 프리뷰 단계가 정량화 가능한 결과 판매가 아닌 아키텍처 시연에 집중하고 있음을 의미합니다.
가격은 공개되지 않았습니다. 프리뷰는 AgentCore가 이미 이용 가능한 국가의 Amazon Bedrock 사용자가 이용할 수 있습니다.
자주 묻는 질문
- AgentCore Optimization이 자동화하는 것은 무엇입니까?
- 세 가지입니다: (1) 프로덕션 트레이스와 평가 결과를 분석하여 시스템 프롬프트나 도구 설명 수정을 제안하는 Recommendations, (2) 사전 정의된 테스트 세트에 대한 Batch evaluation, (3) 통계적 유의성 데이터를 갖춘 에이전트 신구 버전 간 A/B 테스트.
- 프로덕션 트레이스는 어떻게 수집됩니까?
- AgentCore의 엔드투엔드 추적 가능성을 통해 모든 모델 호출, 도구 호출, 추론 단계를 OpenTelemetry 호환 트레이스로 기록합니다. 이미 OTEL을 사용하는 개발팀은 추가 계측 없이 기존 인프라를 임포트할 수 있습니다.
- 수동 최적화와 비교한 시스템의 주요 기여는 무엇입니까?
- 추측을 구조로 대체합니다: 프로덕션 데이터→제안→배포 전 검증. 기존 워크플로우는 엔지니어가 트레이스를 읽고 수동으로 프롬프트를 변경하며 효과를 바라는 방식이었는데, 이제 그 사이클이 측정 가능합니다.