🟡 🤝 에이전트 2026년 5월 4일 월요일 · 2 분 읽기 ·

ArXiv AEM: 멀티턴 RL 에이전트를 위한 적응형 엔트로피 변조, SWE-bench Verified에서 +1.4% 향상

Editorial illustration: ArXiv AEM: 멀티턴 RL 에이전트를 위한 적응형 엔트로피 변조, SWE-bench Verified에서 +1.4% 향상

1.5B~32B 파라미터 모델에서 RL 에이전트 탐색·활용 균형을 동적으로 조절하는 비지도 훈련 기법

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.

Haotian Zhao, Yuxin Zhang, Songlin Zhou 및 공동 저자들은 **AEM(Adaptive Entropy Modulation)**을 발표했습니다. 이는 강화학습(RL)을 통한 에이전트 LLM 훈련의 멀티턴 태스크 훈련 불안정성 문제를 직접 해결하는 비지도(supervision-free) 훈련 방법입니다.

AEM이 해결하는 문제

멀티턴 에이전트 태스크를 위한 표준 RL 방법은 훈련이 불안정합니다. 에이전트는 대화의 초기 단계와 후기 단계에서 서로 다르게 탐색과 활용을 균형 잡아야 하기 때문입니다. 초기 단계에서 에이전트는 태스크가 어떻게 생겼는지 파악하는 중이고, 후기 단계에서는 이미 신호를 갖고 있어 최선의 해결책을 활용해야 합니다. 고정된 RL 하이퍼파라미터는 이러한 역학을 포착하지 못합니다.

표준 토큰 수준 엔트로피 보너스도 잘 동작하지 않습니다. 개별 토큰의 엔트로피는 멀티턴 의미에서 “시스템이 얼마나 탐색하는가”에 대한 불량한 프록시이기 때문입니다.

적응형 변조의 작동 방식

AEM은 개별 토큰이 아닌 응답 수준에서 엔트로피를 분석합니다. 저자들은 두 가지 신호에 의해 유도되어 탐색에서 활용으로의 자연스러운 전환을 가능하게 하는 실용적인 프록시를 도출합니다.

  • Advantage — 응답이 기준 정책보다 얼마나 나은지에 대한 점수
  • Relative response surprisal — 현재 모델 기준으로 응답이 얼마나 “예상치 못한”지

이 시스템은 지도 방식이 아닙니다. “언제 탐색해야 하는가”에 대한 수동 레이블링을 요구하지 않고, 훈련 상태를 스스로 측정합니다.

어떤 모델과 벤치마크를 사용했는가?

실험은 15억~320억 파라미터 모델을 대상으로 합니다. 주요 평가는 프로그래밍 태스크에서의 에이전트 LLM 업계 표준인 SWE-bench Verified에서 진행되었습니다.

결과: AEM을 최신 기준선에 통합했을 때 1.4% 절대 향상을 기록했습니다. 이는 견고하지만 극적이지는 않은 성과입니다. 추가적인 지도자나 기본 RL 공식 변경 없이 달성된 만큼 의미 있는 결과입니다.

이 결과가 시사하는 트렌드

AEM은 ArXiv에서 최근 2주간 나온 에이전트 시스템 RL 훈련에 관한 다섯 번째 논문입니다. 이 분야는 멀티턴 훈련 안정화에 집중적으로 주목하고 있으며, 이는 신뢰할 수 있는 프로덕션 에이전트를 위한 전제 조건입니다. AEM의 비지도 접근 방식은 필요한 양의 수동 레이블 훈련 데이터를 수집하기 어려운 연구소에 특히 매력적입니다.

자주 묻는 질문

LLM 강화학습 맥락에서 엔트로피란 무엇인가?
다음 토큰이나 응답 선택의 불확실성 척도입니다. 높은 엔트로피는 더 많은 선택지 탐색을, 낮은 엔트로피는 이미 학습한 패턴의 활용을 의미합니다.
왜 AEM은 토큰 수준이 아닌 응답 수준에서 엔트로피를 변조하는가?
토큰 수준 엔트로피는 에이전트의 멀티턴 행동 품질과 상관관계가 낮습니다. 응답 수준 분석이 탐색에서 활용으로 언제 전환해야 하는지를 더 정확하게 나타내는 지표입니다.
SWE-bench Verified란 무엇인가?
프로그래밍 엔지니어링 태스크에서 에이전트 LLM을 평가하는 업계 표준 벤치마크로, 실제 GitHub 이슈 해결 검증을 기반으로 합니다.