arXiv:2605.11882: FATE 프레임워크가 온폴리시 자기 진화로 에이전트 공격 성공률 33.5% 감소
FATE 프레임워크는 Bo Yin, Qi Li, Xinchao Wang이 2026년 5월 12일 arXiv에 발표한 LLM 에이전트 안전 정렬을 위한 새로운 접근법입니다. 개별 응답을 평가하는 기존 RLHF와 달리, FATE는 검증기가 점수를 매긴 실패 궤적을 온폴리시 수리 감독 신호와 파레토 프론트 정책 최적화로 변환합니다. 결과는 공격 성공률 33.5% 감소, 유해 순응률 82.6% 감소를 보여줍니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
Bo Yin, Qi Li, Xinchao Wang은 2026년 5월 12일 arXiv에 논문을 발표하며, 도구 사용 LLM 에이전트에 대한 기존 안전 정렬 방법의 핵심 한계——전체 실행 궤적이 아닌 개별 응답에 초점을 맞추는 것——를 해결했습니다. 제안된 FATE 프레임워크(Failure-Trajectory Adversarial Training Evolution)는 응답 수준 신호가 놓치는 실패 유형을 포착하며 상당한 보안 향상을 보여줍니다.
기존 안전 방법이 놓치는 문제는 무엇입니까?
도구 사용 에이전트는 최종 응답에서만 실패하지 않습니다. 실패는 전체 궤적에 걸쳐 나타납니다. 안전하지 않은 도구 호출, 명령 주입, 유해 순응, 과도한 거절이 그 예입니다. 기존 안전 신호는 응답 수준 또는 오프폴리시이므로 안전성과 유용성 사이에 트레이드오프가 발생합니다. 응답 수준에서 에이전트를 차단하는 검증기는 합법적인 사용 사례도 차단하는 경우가 많습니다.
FATE는 어떻게 실패를 수리 감독으로 전환합니까?
FATE는 세 단계로 작동합니다. 첫째, 검증기가 전체 에이전트 궤적을 점수 매기고 차원별(보안, 유용성, 과도한 거절 제어, 궤적 유효성)로 실패를 식별합니다. 둘째, 온폴리시 자기 진화——동일 정책이 실패에 대한 수리 후보를 제안하고 검증기가 재점수를 매깁니다. 셋째, **파레토 프론트 정책 최적화(PFPO)**가 지도 사전 학습과 파레토 인식 최적화를 결합합니다. 유용성 손실 없이 안전성을 높이는 정책 공간의 방향을 탐색합니다.
벤치마크에서 구체적인 수치는 어떻습니까?
AgentDojo, AgentHarm, ATBench 테스트 결과는 다음과 같습니다. 공격 성공률 33.5% 감소, 유해 순응률 82.6% 감소, 외부 궤적 안전 진단 6.5% 개선. 결과는 다양한 모델과 규모에서 유지되며 유용한 행동도 보존됩니다. 파레토 프론트 접근법은 전통적인 안전성-유용성 트레이드오프를 없앱니다.
이 연구의 기여는 검증을 응답 수준에서 궤적 수준으로 이동하고, 실패 데이터셋 자체를 훈련 신호로 활용한 데 있습니다. 이는 에이전트가 외부 레이블링이 아닌 자신의 실수에서 안전성을 가장 잘 학습함을 시사합니다.
자주 묻는 질문
- FATE 접근법의 새로운 점은 무엇입니까?
- FATE는 개별 응답이 아닌 전체 에이전트 궤적 수준에서 작동합니다. 검증기가 실패 궤적을 점수 매기고, FATE는 해당 기록을 온폴리시 수리에 활용합니다. 동일 정책이 수리 후보를 제안하면 검증기가 재점수를 매깁니다.
- 벤치마크의 구체적인 결과는 어떻습니까?
- AgentDojo, AgentHarm, ATBench 테스트에서 공격 성공률 33.5% 감소, 유해 순응률 82.6% 감소, 외부 궤적 안전 진단 6.5% 개선이 나타났습니다. 다양한 작업과 모델 규모에서 유용성도 유지되었습니다.