arXiv FATE: LLMエージェントへの攻撃を33.5%削減

FATEフレームワークは、Bo Yin・Qi Li・Xinchao Wangによって2026年5月12日にarXivで発表された、LLMエージェントの安全アライメントに対する新しいアプローチです。個別応答を評価する従来のRLHFとは異なり、FATEは検証器がスコアリングした失敗軌跡をオンポリシー修復監督とPareto-Front Policy Optimizationに変換します。攻撃成功率33.5%削減、有害コンプライアンス82.6%削減という結果が示されました。

Bo Yin・Qi Li・Xinchao Wangは、2026年5月12日にarXivで論文を発表しました。ツール使用 LLMエージェントの既存安全アライメント手法の根本的な限界——実行軌跡全体ではなく個別応答に焦点を当てること——に対処する内容です。提案されたFATEフレームワーク（Failure-Trajectory Adversarial Training Evolution）は、応答レベルの信号が見落とす失敗タイプを捕捉し、大きなセキュリティ上の改善を示しています。

従来の安全手法が見落としていた問題とは何ですか？

ツール使用エージェントは最終応答だけで失敗するわけではありません。失敗は軌跡全体を通じて現れます。不安全なツール呼び出し、インストラクションインジェクション、有害コンプライアンス、過剰拒否などです。既存の安全信号は応答レベルまたはオフポリシーであり、安全性と有用性のトレードオフを生み出します。応答レベルでエージェントをブロックする検証器は、正当なユースケースもブロックしがちです。

FATEはどのように失敗を修復監督に変換しますか？

FATEは3ステップで動作します。まず、検証器がエージェント軌跡全体をスコアリングし、次元ごと（セキュリティ・有用性・過剰拒否制御・軌跡有効性）に失敗を特定します。次に、オンポリシー自己進化——同じポリシーが失敗に対する修復候補を提案し、検証器が再スコアリングします。最後に、**Pareto-Front Policy Optimization（PFPO）**が教師あり事前学習とPareto対応最適化を組み合わせます。有用性を損なわずに安全性を高めるポリシー空間の方向を探索します。

ベンチマークでの具体的な数値は？

AgentDojo・AgentHarm・ATBenchでのテストは以下の数値を示しました。攻撃成功率33.5%削減、有害コンプライアンス82.6%削減、外部軌跡安全診断6.5%改善。結果は様々なモデルとスケールにわたって維持され、有用な動作が保持されています。Pareto-frontアプローチは、従来の安全性と有用性のトレードオフを排除しています。

本研究の貢献は、検証を応答レベルから軌跡レベルに移行させ、失敗データセット自体を訓練信号として使用することにあります。これはエージェントが外部ラベリングではなく、自身の誤りから安全性を最もよく学習することを示唆しています。

よくある質問

FATEアプローチの新しさはどこにありますか？

FATEは個別の応答ではなく、エージェント軌跡全体のレベルで動作します。検証器が失敗軌跡をスコアリングし、FATEはそれらの記録をオンポリシー修復に活用します。同じポリシーが修復候補を提案し、検証器が再スコアリングします。

ベンチマークの具体的な結果はどうでしたか？

AgentDojo・AgentHarm・ATBenchでのテストで、攻撃成功率33.5%削減、有害コンプライアンス82.6%削減、外部軌跡安全診断6.5%改善が示されました。様々なタスクやモデルスケールにわたって有用性が維持されています。

arXiv:2605.11882: FATEフレームワークがオンポリシー自己進化でエージェントの攻撃成功率を33.5%削減

従来の安全手法が見落としていた問題とは何ですか？

FATEはどのように失敗を修復監督に変換しますか？

ベンチマークでの具体的な数値は？

よくある質問

出典

関連ニュース