ICML 2026: 도구 사용 에이전트, 벤치마크 외부에서 취약

ICML 2026에 채택된 논문이 네 가지 수준 — 지각, 상호작용, 추론, 내재화 — 에 걸친 환경 변화 하에서 도구 사용 LLM 에이전트를 체계적으로 테스트한다. 주요 발견: SFT와 RL 훈련 모두 약간의 분포 변화에도 심각한 성능 저하를 보이며, 통제된 벤치마크 정확도가 실제 강건성을 예측하지 못한다. PAFT(교란 증강 파인튜닝)가 완화 방법으로 제안된다.

Song-Lin Lv, Weiming Wu, Rui Zhu, Zi-Jian Cheng, Lan-Zhe Guo가 공동 저술한 논문 「Can Agents Generalize to the Open World? Unveiling the Fragility of Static Training in Tool Use」가 ICML 2026에 채택되어 2026년 7월 1일 발표되었다. 이 연구는 많은 평가 실천의 근저에 놓인 전제를 직접 반박한다: 벤치마크에서의 높은 정확도가 배포에서 강건한 에이전트를 의미한다는 전제다.

오픈 월드 스트레스 테스트를 위한 통제된 샌드박스

연구팀은 네 가지 계층적 수준에 걸쳐 분포 변화를 체계적으로 테스트할 수 있는 재현 가능한 샌드박스를 개발했다.

지각 — 에이전트가 입력 정보를 수신하고 해석하는 방식의 변화
상호작용 — 에이전트가 작업하는 도구의 인터페이스와 동작 변화
추론 — 태스크 내 논리적 추론 요구 사항의 변화
내재화 — 학습된 지식의 적응이 필요한 도메인 변화

각 수준은 실제 배포에서 현실적으로 발생하지만 표준 훈련 및 평가 데이터셋에는 거의 없는 특정 유형의 변이를 모델링한다.

핵심 발견: 정적 훈련은 취약성을 만든다

벤치마크 정확도가 강건성을 예측하지 못하는 이유는?

연구의 핵심 발견은 지도 파인튜닝(SFT) 과 강화학습(RL) 으로 훈련된 에이전트 모두 — 변화가 미미할 때도 — 네 가지 수준의 분포 변화에서 심각한 성능 저하를 보인다는 것이다.

중요한 함의: 통제된 벤치마크 정확도가 실제 강건성을 예측하지 못한다. 벤치마크 성능과 실제 조건에서의 성능 사이의 격차는 크고 체계적으로 과소평가된다. 감독된 환경에서 뛰어난 결과를 달성하는 에이전트가 도구와의 상호작용의 어떤 측면이 변경되면 — 태스크 자체의 변경 없이도 — 성능이 극적으로 떨어질 수 있다.

이는 RLHF 또는 SFT로 훈련된 도구 사용 에이전트가 새로운 툴링, 새로운 API, 새로운 적용 도메인으로 신뢰성 있게 일반화할 것이라는 전제를 직접 반박한다.

PAFT: 훈련의 일부로서의 교란

완화책으로 연구자들은 PAFT(Perturbation-Augmented Fine-Tuning) 를 제안한다 — 환경 교란을 훈련 과정에 명시적으로 포함하는 파인튜닝 전략이다. 에이전트가 도구의 올바른 사용에 관한 정적 예시만으로 학습하는 대신, PAFT는 배포에서 나타날 분포 변화를 시뮬레이션하는 수정된 버전으로 훈련한다.

접근법은 개념적으로 컴퓨터 비전의 데이터 증강 방법과 유사하지만 — 에이전틱 도구 사용 시나리오의 변이의 특정 구조에 맞게 조정되었다.

인프라 기여

발견 외에도 이 논문은 구체적인 인프라 기여를 제공한다: 특정 모델 아키텍처와 무관하게 적용할 수 있는 도구 사용 에이전트의 오픈 월드 스트레스 테스트를 위한 재현 가능한 샌드박스. 이는 연구자와 실무자가 벤치마크 정확도에만 의존하는 대신 표준화된 방식으로 자체 에이전트의 강건성을 검증할 수 있게 한다는 점에서 특히 가치 있다.

ICML 2026 채택은 커뮤니티가 이런 종류의 평가 인프라를 방법론적 우선순위로 인식한다는 신호다. 에이전트 시스템이 프로덕션 환경에 적극적으로 배포되는 시점에, 정적 훈련의 일반화 한계를 이해하는 것은 책임 있는 개발을 위해 필수적이다.

자주 묻는 질문

벤치마크에서의 높은 정확도가 실제 세계의 강건성을 보장하지 못하는 이유는?

연구에 따르면 표준 벤치마크는 실제 배포에서 발생하는 분포 변화를 모델링하지 않는다 — 지각, 상호작용, 추론, 도메인에서의 작은 변화만으로도 정적 데이터셋만으로 훈련된 에이전트의 성능이 심각하게 저하되기에 충분하다.

PAFT란 무엇이며 어떻게 도움이 되는가?

PAFT(Perturbation-Augmented Fine-Tuning)는 환경 교란을 훈련에 명시적으로 포함하는 파인튜닝 방법으로, 실제 도구 사용 시나리오에서 발생하는 분포 변화에 에이전트를 더 강건하게 만든다.

이 연구에서 에이전트 강건성을 테스트하는 수준은?

샌드박스는 네 가지 계층적 수준을 포함한다: 지각(에이전트가 정보를 보는 방식), 상호작용(도구와의 소통 방식), 추론(논리적 추론), 내재화(도메인 변화에 대한 적응).

ICML 2026 연구: SFT 및 RL 에이전트, 통제된 벤치마크 외부에서 성능 급락