ICML 2026：ツールエージェントはベンチマーク外で脆弱

ICML 2026で採択された論文は、ツール使用LLMエージェントを4つのレベル——知覚・インタラクション・推論・内在化——にわたる環境のシフト下で体系的にテストする。発見：SFTとRLの両トレーニングは分布シフトが軽微でも大幅な性能劣化を示し、制御されたベンチマークの精度は実際のロバスト性を予測しない。PAFT（Perturbation-Augmented Fine-Tuning）が軽減策として提案される。

論文「Can Agents Generalize to the Open World? Unveiling the Fragility of Static Training in Tool Use」は、Song-Lin Lv、Weiming Wu、Rui Zhu、Zi-Jian Cheng、Lan-Zhe Guoの著者によって書かれ、ICML 2026に採択され、2026年7月1日に公開された。研究は多くの評価実践の根底にある前提に正面から異議を唱える。ベンチマークでの高精度はデプロイにおけるロバストなエージェントを意味するという前提に。

オープンワールドのストレステストのための制御されたサンドボックス

研究チームは4つの階層的レベルにわたる分布シフトの体系的なテストを可能にする再現可能なサンドボックスを開発した。

知覚 — エージェントが入力情報をどう受け取り解釈するかのシフト
インタラクション — エージェントが使用するツールのインターフェースと動作の変化
推論 — タスク内の論理的推論要件の変化
内在化 — 学習した知識の適応を必要とするドメインシフト

各レベルは実際のデプロイで現実的に発生するが、標準的なトレーニングと評価データセットにはほとんど存在しない特定の種類の変動をモデル化する。

主要な発見：静的トレーニングは脆弱性を生む

なぜベンチマーク精度はロバスト性を予測しないか？

研究の中心的な発見は、Supervised Fine-Tuning（SFT）とReinforcement Learning（RL）でトレーニングされたエージェントが、4つすべてのレベルの分布シフトで大幅な性能劣化を示すことだ——そのシフトが軽微な場合でも。

重要な含意：制御されたベンチマークの精度は実際のロバスト性を予測しない。ベンチマーク性能と実際の条件下での性能のギャップは大きく、体系的に過小評価されている。監視された環境で優れた結果を達成するエージェントは、タスク自体を変えなくてもツールとのインタラクションのいずれかの側面が変化すると劇的に性能が低下する可能性がある。

これはRLHFまたはSFTでトレーニングされたツール使用エージェントが新しいツーリング、新しいAPI、または新しい応用ドメインに確実に汎化するという前提に直接異議を唱える。

PAFT：トレーニングの一部としての摂動

軽減策として、研究者たちは**PAFT（Perturbation-Augmented Fine-Tuning）**を提案する——環境の摂動をトレーニングプロセスに明示的に含めるファインチューニング戦略。エージェントが静的な正しいツール使用例のみから学習するのではなく、PAFTはデプロイで現れる分布シフトをシミュレートする修正されたバージョンでトレーニングする。

このアプローチはコンピュータビジョンのデータ拡張手法と概念的に近いが、エージェント的ツール使用シナリオにおける変動の特定の構造に適応されている。

インフラ的な貢献

発見に加えて、この論文は具体的なインフラ的な貢献も提供する。特定のモデルアーキテクチャとは独立して適用できるツール使用エージェントのオープンワールドストレステストのための再現可能なサンドボックスだ。これは研究者と実践者がベンチマーク精度だけに頼らず標準化された方法で自身のエージェントのロバスト性を検証できるため、特に価値がある。

ICML 2026への採択は、コミュニティがこの種の評価インフラを方法論的優先事項として認識していることを示している。エージェントシステムが本番環境に積極的にデプロイされている時代に、静的トレーニングの汎化の限界を理解することは責任ある開発のために重要だ。

よくある質問

ベンチマークの高精度がなぜ実世界のロバスト性を保証しないか？

研究は、標準的なベンチマークが実際のデプロイで発生する分布シフトをモデル化していないことを示している——知覚・インタラクション・推論・ドメインの小さな変化が、静的なデータセットだけでトレーニングされたエージェントの性能を大幅に低下させるのに十分だ。

PAFTとは何でどう役立つか？

PAFT（Perturbation-Augmented Fine-Tuning）は環境の摂動をトレーニングに明示的に含めるファインチューニング手法で、実際のツール使用シナリオで発生する分布シフトに対してエージェントをよりロバストにする。

この研究ではエージェントのロバスト性をどのレベルでテストするか？

サンドボックスは4つの階層的レベルをカバーする：知覚（エージェントが情報をどう見るか）、インタラクション（ツールとどう通信するか）、推論（論理的推論）、内在化（ドメイン変化への適応）。

ICML 2026研究：SFTとRLエージェントは制御されたベンチマーク外で劇的に性能が低下