ArXiv SAGE：27のLLMをテスト——モデルは意図を理解するが正しく実行しない

カスタマーサービスエージェントのベンチマーク

研究チーム（Shi、Dai、Wang他）がSAGE（Service Agent Graph-guided Evaluation）を発表した——非構造化SOP（標準業務手順書）を動的対話グラフに形式化し、LLMが実践でどの程度それに従うかをテストするベンチマークである。

SAGEは6つの産業シナリオで27のLLMをテストした——サービスエージェント向けのこの種の評価としては最大規模である。

2つの重要な現象

Execution Gap（実行ギャップ）

モデルはユーザーの意図を正しく分類する（ユーザーが何を望んでいるか分かっている）が、SOPに従った正しい次のアクションを実行しない。理解≠実行。

Empathy Resilience（共感的耐性）

高い敵対的圧力下で、モデルは表面上礼儀正しい会話のファサードを維持する一方、その裏で論理的エラーを犯す。ユーザーはエージェントが有能であるという印象を受けるが、実際にはエージェントは間違ったことをしている——欺瞞的な失敗様式である。

なぜ重要なのか

カスタマーサービスでAIエージェントを使用する企業にとって、これは警告である：「エージェントが質問を理解しているか」のみを測定する標準ベンチマークは、重要な次元を見落としている——「理解した後にエージェントが正しいことをしているか」。SAGEは敵対的意図分類法とモジュラー拡張メカニズムを導入し、低コストで新しいドメインでのテストを可能にする。