ArXiv SAGE: 27개 LLM 테스트 — 모델은 의도를 이해하지만 올바르게 실행하지 못한다

고객 서비스 에이전트 벤치마크

연구팀(Shi, Dai, Wang 외)이 SAGE(Service Agent Graph-guided Evaluation)를 발표했다 — 비구조화된 SOP(표준 운영 절차)를 동적 대화 그래프로 형식화하고 LLM이 실제로 얼마나 잘 따르는지를 테스트하는 벤치마크이다.

SAGE는 6개 산업 시나리오에서 27개 LLM을 테스트했다 — 서비스 에이전트에 대한 이러한 유형의 평가 중 최대 규모이다.

두 가지 핵심 현상

Execution Gap(실행 격차)

모델은 사용자의 의도를 정확히 분류(사용자가 원하는 것을 알고 있음)하지만, SOP에 따른 올바른 다음 조치를 실행하지 않는다. 이해 ≠ 실행.

Empathy Resilience(공감 회복력)

높은 적대적 압력 하에서 모델은 표면적으로 예의 바른 대화 외관을 유지하면서 그 이면에서 논리적 오류를 범한다. 사용자는 에이전트가 유능하다는 인상을 받지만, 실제로 에이전트는 잘못된 일을 하고 있다 — 기만적인 실패 양상이다.

왜 중요한가

고객 서비스에 AI 에이전트를 사용하는 기업에게 이것은 경고이다: “에이전트가 질문을 이해하는가”만 측정하는 표준 벤치마크는 중요한 차원을 놓치고 있다 — “이해한 후에 에이전트가 올바른 일을 하는가”. SAGE는 적대적 의도 분류 체계와 모듈식 확장 메커니즘을 도입하여 낮은 비용으로 새로운 도메인에서의 테스트를 가능하게 한다.