ICML 2026: Tool-Use-Agenten fragil außerhalb von Benchmarks

Ein auf ICML 2026 angenommener Beitrag testet LLM-Agenten für Tool-Use systematisch unter Umgebungsverschiebungen auf vier Ebenen – Wahrnehmung, Interaktion, Schlussfolgern und Internalisierung. Ergebnis: Sowohl SFT- als auch RL-Training zeigen signifikante Degradation bei moderaten Verteilungsverschiebungen, und die Benchmark-Genauigkeit sagt tatsächliche Robustheit nicht voraus. Das vorgeschlagene PAFT (Perturbation-Augmented Fine-Tuning) bietet Abhilfe.

Der Beitrag „Can Agents Generalize to the Open World? Unveiling the Fragility of Static Training in Tool Use” der Autorinnen und Autoren Song-Lin Lv, Weiming Wu, Rui Zhu, Zi-Jian Cheng und Lan-Zhe Guo wurde auf der ICML 2026 angenommen und am 1. Juli 2026 veröffentlicht. Die Studie stellt direkt die Annahme in Frage, die vielen Evaluierungspraktiken zugrunde liegt: dass gute Benchmark-Genauigkeit einen robusten Agenten im Deployment bedeutet.

Kontrollierte Sandbox für Open-World-Stresstests

Das Forschungsteam entwickelte eine reproduzierbare Sandbox, die systematische Tests von Verteilungsverschiebungen auf vier hierarchischen Ebenen ermöglicht:

Wahrnehmung – Verschiebungen darin, wie der Agent Eingabeinformationen empfängt und interpretiert
Interaktion – Änderungen in der Schnittstelle und im Verhalten der Tools, mit denen der Agent arbeitet
Schlussfolgern – Änderungen in den Anforderungen an logische Schlussfolgerungen innerhalb der Aufgabe
Internalisierung – Domänenverschiebungen, die eine Anpassung erlernter Kenntnisse erfordern

Jede Ebene modelliert eine spezifische Art von Variation, die realistisch im realen Deployment auftritt, aber in Standard-Trainings- und Evaluierungsdatensätzen selten vorhanden ist.

Zentrale Befunde: Statisches Training erzeugt Fragilität

Warum sagt Benchmark-Genauigkeit Robustheit nicht voraus?

Der zentrale Befund der Studie ist, dass Agenten, die durch Supervised Fine-Tuning (SFT) und Reinforcement Learning (RL) trainiert wurden, bei allen vier Ebenen von Verteilungsverschiebungen signifikante Leistungsdegradation zeigen – selbst wenn diese Verschiebungen moderat sind.

Die kritische Implikation: Benchmark-Genauigkeit sagt tatsächliche Robustheit nicht voraus. Die Lücke zwischen Benchmark-Leistung und Leistung unter realen Bedingungen ist groß und wird systematisch unterschätzt. Ein Agent, der in einer kontrollierten Umgebung hervorragende Ergebnisse erzielt, kann in seiner Leistung drastisch einbrechen, wenn sich irgendein Aspekt der Tool-Interaktion ändert – selbst ohne Änderung der eigentlichen Aufgabe.

Dies stellt direkt die Annahme in Frage, dass RLHF- oder SFT-trainierte Tool-Use-Agenten zuverlässig auf neue Toolings, neue APIs oder neue Anwendungsdomänen generalisieren werden.

PAFT: Perturbationen als Teil des Trainings

Als Gegenmaßnahme schlagen die Forscher PAFT (Perturbation-Augmented Fine-Tuning) vor – eine Fine-Tuning-Strategie, die Umgebungsperturbationen explizit in den Trainingsprozess einbezieht. Anstatt dass der Agent nur aus statischen Beispielen korrekter Tool-Nutzung lernt, trainiert PAFT auf modifizierten Versionen, die Verteilungsverschiebungen simulieren, die im Deployment auftreten werden.

Der Ansatz ist konzeptionell nah an Datenaugmentierungsmethoden in Computer Vision – aber angepasst an die spezifische Struktur von Variationen in agentischen Tool-Use-Szenarien.

Infrastruktureller Beitrag

Neben den Befunden bietet die Arbeit auch einen konkreten infrastrukturellen Beitrag: eine reproduzierbare Sandbox für Open-World-Stresstests von Tool-Use-Agenten, die unabhängig von der spezifischen Modellarchitektur angewendet werden kann. Dies ist besonders wertvoll, da es Forschern und Praktikern ermöglicht, die Robustheit eigener Agenten auf standardisierte Weise zu verifizieren – anstatt sich ausschließlich auf Benchmark-Genauigkeit zu stützen.

Die Annahme auf ICML 2026 signalisiert, dass die Gemeinschaft diese Art von Evaluierungsinfrastruktur als methodologische Priorität anerkennt. In einem Moment, in dem agentische Systeme aktiv in Produktionsumgebungen deployed werden, wird das Verständnis der Grenzen der Generalisierung statischen Trainings für verantwortungsvolle Entwicklung kritisch.

Häufig gestellte Fragen

Warum garantiert hohe Benchmark-Genauigkeit keine Robustheit in der realen Welt?

Die Studie zeigt, dass Standard-Benchmarks keine Verteilungsverschiebungen modellieren, die beim realen Deployment auftreten – kleine Änderungen in Wahrnehmung, Interaktion, Schlussfolgern oder Domäne reichen für einen signifikanten Leistungsabfall bei Agenten aus, die ausschließlich auf statischen Datensätzen trainiert wurden.

Was ist PAFT und wie hilft es?

PAFT (Perturbation-Augmented Fine-Tuning) ist eine Fine-Tuning-Methode, die Umgebungsperturbationen explizit ins Training einbezieht, sodass der Agent robuster gegenüber Verteilungsverschiebungen wird, die in realen Tool-Use-Szenarien auftreten.

Auf welchen Ebenen wird die Agentenrobustheit in dieser Studie getestet?

Die Sandbox deckt vier hierarchische Ebenen ab: Wahrnehmung (wie der Agent Informationen aufnimmt), Interaktion (wie er mit Tools kommuniziert), Schlussfolgern (logische Schlüsse) und Internalisierung (Anpassung an Domänenänderungen).

ICML 2026-Studie: SFT- und RL-Agenten verlieren dramatisch an Leistung außerhalb kontrollierter Benchmarks