🟡 🛡️ Sicherheit Veröffentlicht: · 2 Min. Lesezeit ·

arXiv:2605.11882: FATE-Framework reduziert Attack-Success-Rate von Agenten um 33,5 % durch On-Policy Self-Evolution

arXiv:2605.11882 ↗

Editorial illustration: Agenten-Execution-Trajectory mit Fehlern und Sicherheitsprüfpunkten.

FATE ist ein neuer Ansatz zum Safety-Alignment von LLM-Agenten, veröffentlicht am 12. Mai 2026 auf arXiv von Bo Yin, Qi Li und Xinchao Wang. Anstelle des klassischen RLHF, das einzelne Antworten bewertet, wandelt FATE verifier-bewertete Failure-Trajectories in On-Policy-Repair-Supervision und Pareto-Front Policy Optimization um. Die Ergebnisse zeigen eine Reduktion der Attack-Success-Rate um 33,5 % und 82,6 % weniger Harmful Compliance.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

Bo Yin, Qi Li und Xinchao Wang haben am 12. Mai 2026 auf arXiv ein Paper veröffentlicht, das eine zentrale Einschränkung bestehender Safety-Alignment-Methoden für Tool-nutzende LLM-Agenten adressiert — den Fokus auf einzelne Antworten statt auf vollständige Execution-Trajectories. Das vorgeschlagene FATE-Framework (Failure-Trajectory Adversarial Training Evolution) erfasst Fehlertypen, die Response-Level-Signale übersehen, und zeigt signifikante Sicherheitsgewinne.

Welches Problem übersehen klassische Safety-Methoden?

Tool-nutzende Agenten versagen nicht nur in der finalen Antwort — Fehler manifestieren sich über die gesamte Trajectory: unsichere Tool-Calls, Instruction Injection, Harmful Compliance und Over-Refusal. Bestehende Safety-Signale sind response-level oder off-policy, was einen Trade-off zwischen Sicherheit und Nützlichkeit erzeugt. Ein Verifier, der einen Agenten auf Response-Ebene blockiert, blockiert häufig auch legitime Anwendungsfälle.

Wie wandelt FATE Fehler in Repair-Supervision um?

FATE arbeitet in drei Schritten. Erstens bewertet ein Verifier vollständige Agenten-Trajectories und identifiziert Fehler nach Dimensionen (Sicherheit, Nützlichkeit, Over-Refusal-Kontrolle, Trajectory-Validität). Zweitens, On-Policy Self-Evolution — dieselbe Policy schlägt Repair-Kandidaten für die Fehler vor, die Verifier erneut bewerten. Drittens kombiniert Pareto-Front Policy Optimization (PFPO) Supervised Warm-up mit Pareto-bewusster Optimierung: Sie sucht eine Richtung im Policy-Raum, die die Sicherheit erhöht, ohne Nützlichkeit zu verlieren.

Wie groß sind die konkreten Benchmark-Gewinne?

Tests auf AgentDojo, AgentHarm und ATBench liefern folgende Zahlen: 33,5 % Reduktion der Attack-Success-Rate, 82,6 % Reduktion der Harmful Compliance, 6,5 % Verbesserung der externen Trajectory-Safety-Diagnose. Die Ergebnisse halten über verschiedene Modelle und Skalierungen stand, wobei das nützliche Verhalten erhalten bleibt — der Pareto-Front-Ansatz eliminiert den klassischen Safety-Utility-Trade-off.

Der Beitrag des Papers liegt in der Verlagerung der Verifikation von der Response- auf die Trajectory-Ebene und in der Nutzung des Failure-Datasets selbst als Trainingssignal — was darauf hindeutet, dass Agenten Sicherheit am besten aus eigenen Fehlern lernen, nicht aus externen Labels.

Häufig gestellte Fragen

Was ist neu am FATE-Ansatz?
FATE arbeitet auf der Ebene der gesamten Agenten-Trajectory und nicht auf der Ebene einzelner Antworten — ein Verifier bewertet Failure-Trajectories, und FATE nutzt diese Aufzeichnungen für On-Policy-Repair, bei dem dieselbe Policy Repair-Kandidaten vorschlägt, die Verifier erneut bewerten.
Welche konkreten Benchmark-Ergebnisse wurden erzielt?
Tests auf AgentDojo, AgentHarm und ATBench zeigten eine Reduktion der Attack-Success-Rate um 33,5 %, eine Reduktion der Harmful Compliance um 82,6 % und eine Verbesserung der externen Trajectory-Safety-Diagnose um 6,5 %, während die Nützlichkeit bei Aufgaben und verschiedenen Modell-Skalierungen erhalten blieb.