🟢 🤝 에이전트 2026년 4월 28일 화요일 · 3 분 읽기

AWS, SageMaker AI 모델과 MLflow 관찰 가능성을 이용한 Strands 에이전트 구축 방법 공개: SageMakerAIModel 공급자, 자동 로그 추적, A/B 테스트 변체

SageMaker 엔드포인트와 MLflow 추적이 클라우드 서비스 아키텍처를 통해 Strands SDK를 연결하는 AI 에이전트 아키텍처의 스타일화된 이미지.

왜 중요한가

AWS가 Strands 오픈소스 SDK, 모델 호스팅을 위한 SageMaker AI 엔드포인트, 관찰 가능성을 위한 SageMaker AI Serverless MLflow를 사용한 에이전트 구축 상세 가이드를 발표했습니다. 이 접근법은 인프라 제어, 커스텀 모델 지원, mlflow.strands.autolog()를 통한 자동화된 실행 추적 로깅을 제공합니다.

AWS 머신 러닝 블로그가 세 가지 구성 요소를 사용한 AI 에이전트 구축에 관한 상세한 기술 가이드를 발표했습니다: 오픈소스 Strands Agents SDK, 모델 호스팅용 Amazon SageMaker AI 엔드포인트, 관찰 가능성을 위한 SageMaker AI Serverless MLflow. 이 가이드는 운영상 또는 규제상의 이유로 Amazon Bedrock 같은 관리형 서비스에만 의존할 수 없는 조직에게 관련성이 있습니다.

Strands Agents란

Strands Agents는 「단 몇 줄의 코드로 AI 에이전트를 구축하고 실행하는 모델 기반 접근 방식의 오픈소스 SDK」입니다. 아키텍처적으로 이 프레임워크는 세 가지 구성 요소를 결합합니다:

  • 언어 모델(추론을 수행하는 LLM);
  • 시스템 프롬프트(역할 및 동작 정의);
  • 도구 세트(에이전트가 호출할 수 있는 함수 목록).

이 미니멀리스트 패턴은 다른 에이전트 SDK(LangChain, AutoGen, CrewAI)와 유사하지만, 모델 기반 철학——에이전트가 결정을 모델에 위임하고 딱딱한 워크플로에 코딩하지 않음——이 독특한 특징입니다.

Bedrock 대신 SageMaker를 선택하는 이유

AWS는 블로그에서 조직이 관리형 Bedrock 서비스 대신 자체 관리 SageMaker 엔드포인트를 선택하는 네 가지 이유를 명시합니다:

  • 인프라 제어——컴퓨팅 인스턴스, VPC 네트워크, 보안 설정에 대한 제어;
  • 모델 유연성——Bedrock 카탈로그에 없을 수 있는 커스텀 모델, 파인튜닝 변체, 오픈소스 모델;
  • 비용 예측 가능성——예약 인스턴스와 스팟 가격으로 운영 비용의 변동 계수 낮춤;
  • 고급 MLOps——모델 레지스트리, A/B 테스트, 버전 관리.

Strands SDK는 에이전트가 Qwen3 또는 다른 오픈소스 LLM이 실행 중인 엔드포인트를 사용할 수 있게 하는 SageMakerAIModel 공급자를 포함합니다.

관찰 가능성 레이어로서의 MLflow

가이드가 추가하는 주요 가치는 SageMaker AI Serverless MLflow와의 통합입니다:

  • 실행 추적 자동 기록;
  • 도구 사용 패턴(에이전트가 어떤 도구를 언제 호출하는지);
  • 의사결정 워크플로(어떤 추론 경로가 최종 행동으로 이어졌는지).

활성화는 선언적——코드에서 한 번의 mlflow.strands.autolog() 호출——커스텀 계측 없이 가능합니다. 이를 통해 규제 프레임워크가 점점 더 요구하는 두 가지 중요한 것이 달성됩니다:

  • 프로덕션 환경에서 에이전트 행동 모니터링;
  • 결정에 대한 소급 분석을 가능하게 하는 감사 추적.

이는 특히 EU AI법 맥락에서 관련성이 높으며, 제12조는 자동 로깅을, 제72조는 시장 후 모니터링을 요구합니다.

구현 흐름: 다섯 단계

AWS는 블로그에서 5단계 워크플로를 설명합니다:

  • SageMaker JumpStart를 통해 기초 모델 배포;
  • 배포된 엔드포인트를 참조하는 SageMakerAIModel로 Strands 에이전트 생성;
  • mlflow.strands.autolog()로 자동 로깅 활성화;
  • 병렬 A/B 테스트를 위해 여러 모델 변체 배포;
  • 커스텀 스코러가 있는 MLflow GenAI 평가 프레임워크로 에이전트 평가.

4단계(A/B 테스트)는 프로덕션 개발 맥락에서 특히 유용합니다——조직은 위험한 「빅뱅」 마이그레이션 대신 새 변체로 점진적으로 트래픽을 이전하고 품질과 비용 차이를 측정할 수 있습니다.

강조된 사용 사례

AWS는 네 가지 유형의 워크로드에 이 아키텍처를 권장합니다:

  • 엄격한 지연 시간 요구사항이 있는 대화형 AI——공유 관리형 서비스로는 p99 지연 시간에 대한 충분한 제어가 어려운 경우;
  • 예측 가능한 비용이 필요한 고용량 애플리케이션——관리형 서비스의 토큰당 비용이 지배적인 경우;
  • 데이터 거주성 요구사항이 있는 컴플라이언스 민감 배포——위치와 암호화에 대한 정밀한 제어가 필요한 경우;
  • 모델 실험——전체 마이그레이션 전 체계적인 A/B 테스트.

실천적 시사점

이미 AWS를 사용하는 팀이 고려할 세 가지:

  • MLflow 통합은 오버헤드가 낮으며 대규모 리팩터링 없이 기존 에이전트 구현에 도입할 수 있습니다;
  • SageMakerAIModel 공급자는 Bedrock 카탈로그 외의 로컬 또는 지역 오픈소스 모델의 문을 열어줍니다. 데이터 거주성을 관리하려는 유럽 조직에게 관련성이 있습니다;
  • 에이전트 변체의 A/B 테스트는 배포 이상의 것이 필요합니다——정의된 품질 지표(커스텀 스코러)와 트래픽 라우팅 전략이 필요합니다.

가이드는 기술적으로 밀도가 높으며 이미 SageMaker 경험을 가진 실무자를 대상으로 합니다. AWS 환경에서 에이전트를 시작하는 팀에게는 표준 아키텍처 중 하나를 정의합니다——Bedrock 관리형 서비스의 대안으로 더 많은 제어더 큰 운영 책임을 가집니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.