🟡 🏥 실무 게시일: · 4 분 읽기 ·

AWS SageMaker 가이드: 멀티턴 RL에서 알고리즘보다 보상과 평가가 중요하다

에디토리얼 일러스트레이션: AWS SageMaker 에이전틱 파인튜닝 워크플로우와 멀티턴 강화학습

AWS SageMaker AI의 멀티턴 강화학습 가이드는 알고리즘 선택보다 보상 함수의 품질과 평가의 독립성을 우선시한다. 밀집 보상은 분산 붕괴를 방지하고, 보상 해킹은 에이전트가 실제 태스크를 해결하지 않고 지표만 최적화할 때 발생한다. SOP-Bench 벤치마크에서 올바르게 설정된 훈련이 태스크 성공률 13%, 필드 정확도 약 16% 향상을 달성했다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.

AWS가 Amazon SageMaker AI 플랫폼에서의 멀티턴 강화학습을 위한 종합 가이드를 발표했다. 이 문서는 난해한 알고리즘이나 인프라 스케일링에 초점을 두지 않는다 — 핵심 명제는 단순하고, 일반적인 통념과 정면으로 대치한다. 보상 함수의 품질과 평가의 독립성이 유용한 에이전트를 만들 수 있는지를 결정하며, 이는 RL 알고리즘 선택이나 하이퍼파라미터 구성보다 훨씬 중요하다.

보상과 평가가 알고리즘보다 중요하다

멀티턴 강화학습은 에이전트가 여러 턴에 걸쳐 순차적 결정을 내려야 하며, 상호작용이 늘어남에 따라 컨텍스트가 증가한다는 점에서 표준 RL과 다르다. SageMaker AI는 이를 위해 에이전트와 환경을 위한 모듈형 인터페이스, 제어된 오프-정책 스테일니스를 갖춘 롤아웃 데이터의 비동기 수집, 네이티브 알고리즘(PPO, CISPO, importance-sampling 손실)을 제공한다. 플랫폼은 또한 긴 궤적 관리를 위한 시퀀스 확장 훈련과 개별 턴 수준 추적을 위한 MLflow 통합도 제공한다.

그러나 가이드는 분명히 한다. 잘못 설계된 보상이나 독립성이 부족한 평가를 보완하는 알고리즘적 지름길은 없다. 훈련이 시작되기 전에 두 요소가 올바르게 설정되어야 한다. AWS는 명확한 우선순위 계층을 정의한다: 대표적이고 분리된 데이터를 수집하고, 폐쇄적 환경을 구축하고, 독립적인 테스트 세트를 정의하고, 기준 성능을 확립한 다음 — 그 후에야 보상을 설계하고 훈련을 시작하라.

보상 함수 설계의 가장 흔한 함정은?

첫 번째 함정은 RL 맥락의 굿하트 법칙이다: 실제 태스크를 해결하지 않고 보상 지표를 최적화하는 에이전트. AWS 문서는 보상 해킹의 구체적인 지표를 제시한다 — 훈련 보상이 증가하는 동안 검증 보상이 평탄하거나, 기반 모델이 외부 평가보다 훈련 세트에서 더 높은 보상을 달성한다면, 보상 파서가 평가 기준이 더 엄격하게 채점하는 사례를 놓치고 있다는 신호다. 해결책은 파서를 강화하고 새로운 롤아웃의 오프라인 감사를 실시하는 것이다.

두 번째 함정은 이진 보상이다. 그룹 내 모든 롤아웃이 동일한 점수 — 모두 0 또는 모두 1 — 을 받으면 그래디언트가 사라지고 훈련이 정체된다. 가이드는 최종 답변이 옳지 않더라도 솔루션 진행도에 부분 점수를 부여하는 밀집(dense) 보상 함수를 권장한다. 진단을 위해서는 rollout/reward/zero_frac — 0 보상을 받은 궤적 비율 — 을 추적하고, 비율이 너무 높으면 group_size를 8에서 4로 줄여야 한다.

세 번째 함정은 자기 평가다: 스스로 성공을 측정하는 시스템은 자체 보상 해킹을 탐지할 수 없다. AWS는 훈련 보상에 사용된 것보다 더 엄격한 기준으로, 분리된 테스트 세트에서 독립적인 외부 평가를 실시할 것을 강조한다. 일반화 측정과 보상 해킹으로부터의 독립성 측정의 차이는 가이드가 명시적으로 강조하는 핵심 구분이다.

다중 턴에서 컨텍스트 관리

멀티턴 에이전트는 단일턴 RL에는 없는 특유의 문제를 안고 있다. 상호작용 수가 늘어남에 따라 컨텍스트가 커져 계산 비용이 과도해지거나 의미론적으로 오래될 수 있다. AWS는 N이 숙련된 사람이 동일한 태스크를 완료하는 데 필요한 일반적인 턴 수에 해당할 때 max_turns = ceil(N × 1.5) 설정을 권장한다. 5% 이상의 응답이 턴당 토큰 제한에 도달한다면 경계에서의 응답 클러스터링이 구조적 제약을 나타내므로 sampling_max_tokens를 늘려야 한다.

훈련 건강을 모니터링하기 위한 핵심 지표는 네 가지다: 0 보상 궤적 비율(zero_frac), 균일한 점수로 인해 폐기된 롤아웃 그룹 비율(zero_adv_groups), 단일 시도(pass_k_1) 및 8회 시도(pass_k_8)에서의 검증 세트 통과율. zero_adv_groups가 높은 상태에서 pass_k_1이 하락하거나 정체되면 group_size를 줄이거나 롤아웃 다양성을 높여야 한다는 신호다.

특별한 위험은 정책 붕괴다: 훈련 40~80스텝 후 보상이 갑자기 0으로 떨어지는 현상. AWS는 async_config.max_steps_off_policy = 0을 설정하고 필요시 CISPO에서 PPO로 전환할 것을 권장한다. 안정화는 일반적으로 개입 후 25~50스텝 내에 일어난다.

구체적 결과와 도구

AWS 가이드는 항공기 검사를 위한 SOP-Bench 벤치마크를 통해 원칙을 설명한다. 초기 훈련 시도 — 병렬 태스크, 정렬되지 않은 원샷 예시, 잘못된 출력 태그 형식 — 는 불안정하고 저조한 결과를 냈다. 목표 수정(단일 태스크에 집중, 정렬된 예시, 올바른 출력 태그) 후 파인튜닝된 모델이 태스크 성공률 13%, 필드 정확도 약 16% 향상을 달성했다.

구현을 위해 SageMaker는 고수준 추상화인 MultiTurnRLTrainerMultiTurnRLEvaluator, 표준화된 벤치마킹을 위한 SOP-Bench 데이터셋, 개별 턴 수준의 궤적 추적을 위한 MLflow 통합을 제공한다. 훈련된 에이전트의 프로덕션 배포에는 Bedrock AgentCore가 권장된다.

이 가이드는 고객 요청 해결부터 콘텐츠 모더레이션까지 실제 태스크를 위한 에이전트를 구축하는 ML 엔지니어를 대상으로 한다. 핵심 결론은 도메인에 관계없이 유효하다: 견고한 폐쇄적 훈련 환경과 진정한 독립 평가에 대한 투자는 알고리즘과 하이퍼파라미터를 반복하는 것보다 훨씬 더 많은 것을 가져다준다.

자주 묻는 질문

보상 해킹이란 무엇이며 어떻게 인식하는가?
보상 해킹은 에이전트가 실제로 태스크를 해결하지 않고 보상 지표를 최적화할 때 발생한다(RL의 굿하트 법칙). 명확한 신호: 훈련 보상은 증가하지만 검증 보상이 평탄하게 유지되거나, 기반 모델이 외부 평가보다 훈련 보상에서 더 높은 점수를 받는 경우다.
멀티턴 RL에서 이진 보상이 왜 문제가 되는가?
그룹 내 모든 롤아웃이 동일한 점수(모두 0 또는 모두 1)를 받으면 그래디언트가 사라지고 훈련이 정체된다. 솔루션 진행도에 부분 점수를 부여하는 밀집(dense) 보상 함수가 이 문제를 효과적으로 해결한다.
멀티턴 에이전트의 max_turns는 어떻게 결정하는가?
AWS는 N이 숙련된 사람이 동일한 태스크를 수행하는 데 필요한 일반적인 턴 수에 해당할 때 max_turns = ceil(N × 1.5)를 권장한다. 5% 이상의 응답이 턴당 토큰 제한에 도달하면 sampling_max_tokens를 늘려야 한다.