🤖 24 AI
🟢 🤝 에이전트 2026년 4월 21일 화요일 · 3 분 읽기

AWS ToolSimulator: 라이브 API 호출 없는 LLM 기반 AI 에이전트 테스트——멀티턴 대화를 통한 공유 상태 유지

Editorialna ilustracija: AWS ToolSimulator: LLM-pogonjeno testiranje AI agenata bez živih API poziva — shared state kroz

왜 중요한가

AWS는 Strands Evals 플랫폼 내에서 라이브 API 호출 없이 AI 에이전트를 안전하게 테스트하기 위한 LLM 기반 프레임워크인 ToolSimulator를 발표했습니다. 시뮬레이터는 멀티턴 대화 전반에 걸쳐 일관된 공유 상태를 유지하고 맥락에 적합한 응답을 생성하여, 실제 결과 없이 이메일 발송이나 데이터베이스 수정 에이전트를 테스트할 수 있습니다.

AWS가 발표한 것은 무엇인가요?

AWS는 2026년 4월 20일 ToolSimulator를 발표했습니다——라이브 API 호출을 실행하지 않고 AI 에이전트를 안전하고 확장 가능하게 테스트하기 위해 설계된 Strands Evals 플랫폼 내의 새 프레임워크입니다. 목표는 프로덕션 에이전트 구축에서 가장 고통스러운 문제 중 하나를 해결하는 것입니다: 이메일을 발송하거나 데이터베이스를 변경하거나 항공편을 예약하는 에이전트를 실제 결과 없이 어떻게 테스트하는가.

기존 목이 왜 부족한가요?

개발자들은 수십 년간 ——미리 정의된 응답을 반환하는 외부 시스템의 가짜 버전——을 사용해왔습니다. 에이전트의 문제는 그것들이 시스템 상태가 진화하는 동적인 멀티턴 대화를 수행한다는 것입니다. 기존 목은 정적입니다: 매번 같은 응답을 반환합니다. “1단계에서 이 사용자를 생성했으니 5단계에서 업데이트할 수 있다”고 할 수 없습니다.

결과: 목이 너무 얇거나(현실성이 없거나) 유지 비용이 너무 높습니다(각 테스트 시나리오에 수동으로 상태 머신 코딩이 필요합니다).

ToolSimulator는 어떻게 문제를 해결하나요?

ToolSimulator는 내부적으로 LLM을 사용하여 즉석에서 도구 응답을 생성합니다. 핵심 혁신은 공유 상태입니다——시뮬레이터는 대화에서 일어난 모든 것을 기억하고 미래 응답이 역사와 일관성이 있음을 보장합니다.

예: 에이전트가 2단계에서 create_user(name="Ana")를 호출합니다. 7단계에서 list_users()를 호출하면——ToolSimulator는 Ana가 이전에 생성되었으므로 목록에 있어야 함을 알고 있습니다. LLM 없이는 개발자가 그 상태를 수동으로 코딩해야 했지만, LLM이 있으면 시뮬레이터가 자동으로 처리합니다.

통합은 어떤 모습인가요?

기술적 통합은 선언적이고 간단합니다:

  • @simulator.tool() 데코레이터 — 개발자가 Python 함수를 에이전트가 사용 가능한 도구로 표시합니다. 시뮬레이터가 자동으로 서명과 docstring을 가져옵니다.
  • Pydantic 모델스키마 강제 적용에 사용됩니다. Pydantic은 인수와 반환값이 올바른 타입을 가지는지 검증합니다——에이전트가 숫자 대신 문자열을 보내면 LLM이 응답을 생성하기 전에 그 수준에서 테스트가 실패합니다.

따라서 개발자는 구현이 아닌 도구 설명만 작성하면 됩니다——ToolSimulator가 나머지를 처리합니다.

PII 보호가 왜 중요한가요?

정의: PII(개인식별정보)는 개인을 식별할 수 있는 데이터——이름, 주민등록번호, 주소, 전화번호, 이메일 주소입니다.

실제 API에서 에이전트를 테스트하는 것은 PII가 로그, 스테이징 데이터베이스, 분석에 누출됨을 의미합니다. 이는 규제 문제(EU의 GDPR, 미국의 HIPAA)이자 실질적인 문제(스테이징 환경에서 공개 환경으로의 누출)입니다.

ToolSimulator는 실제 API를 전혀 호출하지 않으므로 PII 소스가 없습니다——시뮬레이션은 현실적으로 보이지만 실제 사람과 연결되지 않은 합성 데이터를 생성합니다.

누구에게 유용한가요?

도구 사용으로 에이전트를 구축하는 모든 팀. MVP 에이전트를 테스트하는 스타트업부터 프로덕션 배포를 검증하는 대형 조직까지. 다음에 특히 유용합니다:

  • 단위 테스트 — 에이전트와 단일 도구의 단일 상호작용 격리
  • 엔드투엔드 테스트 — 여러 도구와 단계가 있는 전체 워크플로우
  • 회귀 테스트 — 새 모델이 이전 모델과 동일하게 동작하는지 확인

결론

ToolSimulator는 실제 문제에 대한 구체적인 답입니다: 프로덕션 에이전트는 테스트가 필요하지만 라이브 시스템에서의 테스트는 비용이 많이 들고, 느리고, 위험합니다. AWS의 이 조치는 에이전트 관찰성과 테스트 가능성이 클라우드 인프라에서 일급 시민이 되고 있음을 시사합니다. Strands Evals와의 통합은 플랫폼에 완전한 스택——개발에서 시뮬레이션을 거쳐 평가까지——을 제공합니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.