arXiv FATE: 33,5 % weniger Angriffe auf LLM-Agenten

FATE ist ein neuer Ansatz zum Safety-Alignment von LLM-Agenten, veröffentlicht am 12. Mai 2026 auf arXiv von Bo Yin, Qi Li und Xinchao Wang. Anstelle des klassischen RLHF, das einzelne Antworten bewertet, wandelt FATE verifier-bewertete Failure-Trajectories in On-Policy-Repair-Supervision und Pareto-Front Policy Optimization um. Die Ergebnisse zeigen eine Reduktion der Attack-Success-Rate um 33,5 % und 82,6 % weniger Harmful Compliance.

Bo Yin, Qi Li und Xinchao Wang haben am 12. Mai 2026 auf arXiv ein Paper veröffentlicht, das eine zentrale Einschränkung bestehender Safety-Alignment-Methoden für Tool-nutzende LLM-Agenten adressiert — den Fokus auf einzelne Antworten statt auf vollständige Execution-Trajectories. Das vorgeschlagene FATE-Framework (Failure-Trajectory Adversarial Training Evolution) erfasst Fehlertypen, die Response-Level-Signale übersehen, und zeigt signifikante Sicherheitsgewinne.

Welches Problem übersehen klassische Safety-Methoden?

Tool-nutzende Agenten versagen nicht nur in der finalen Antwort — Fehler manifestieren sich über die gesamte Trajectory: unsichere Tool-Calls, Instruction Injection, Harmful Compliance und Over-Refusal. Bestehende Safety-Signale sind response-level oder off-policy, was einen Trade-off zwischen Sicherheit und Nützlichkeit erzeugt. Ein Verifier, der einen Agenten auf Response-Ebene blockiert, blockiert häufig auch legitime Anwendungsfälle.

Wie wandelt FATE Fehler in Repair-Supervision um?

FATE arbeitet in drei Schritten. Erstens bewertet ein Verifier vollständige Agenten-Trajectories und identifiziert Fehler nach Dimensionen (Sicherheit, Nützlichkeit, Over-Refusal-Kontrolle, Trajectory-Validität). Zweitens, On-Policy Self-Evolution — dieselbe Policy schlägt Repair-Kandidaten für die Fehler vor, die Verifier erneut bewerten. Drittens kombiniert Pareto-Front Policy Optimization (PFPO) Supervised Warm-up mit Pareto-bewusster Optimierung: Sie sucht eine Richtung im Policy-Raum, die die Sicherheit erhöht, ohne Nützlichkeit zu verlieren.

Wie groß sind die konkreten Benchmark-Gewinne?

Tests auf AgentDojo, AgentHarm und ATBench liefern folgende Zahlen: 33,5 % Reduktion der Attack-Success-Rate, 82,6 % Reduktion der Harmful Compliance, 6,5 % Verbesserung der externen Trajectory-Safety-Diagnose. Die Ergebnisse halten über verschiedene Modelle und Skalierungen stand, wobei das nützliche Verhalten erhalten bleibt — der Pareto-Front-Ansatz eliminiert den klassischen Safety-Utility-Trade-off.

Der Beitrag des Papers liegt in der Verlagerung der Verifikation von der Response- auf die Trajectory-Ebene und in der Nutzung des Failure-Datasets selbst als Trainingssignal — was darauf hindeutet, dass Agenten Sicherheit am besten aus eigenen Fehlern lernen, nicht aus externen Labels.

Häufig gestellte Fragen

Was ist neu am FATE-Ansatz?

FATE arbeitet auf der Ebene der gesamten Agenten-Trajectory und nicht auf der Ebene einzelner Antworten — ein Verifier bewertet Failure-Trajectories, und FATE nutzt diese Aufzeichnungen für On-Policy-Repair, bei dem dieselbe Policy Repair-Kandidaten vorschlägt, die Verifier erneut bewerten.

Welche konkreten Benchmark-Ergebnisse wurden erzielt?

Tests auf AgentDojo, AgentHarm und ATBench zeigten eine Reduktion der Attack-Success-Rate um 33,5 %, eine Reduktion der Harmful Compliance um 82,6 % und eine Verbesserung der externen Trajectory-Safety-Diagnose um 6,5 %, während die Nützlichkeit bei Aufgaben und verschiedenen Modell-Skalierungen erhalten blieb.

arXiv:2605.11882: FATE-Framework reduziert Attack-Success-Rate von Agenten um 33,5 % durch On-Policy Self-Evolution

Welches Problem übersehen klassische Safety-Methoden?

Wie wandelt FATE Fehler in Repair-Supervision um?

Wie groß sind die konkreten Benchmark-Gewinne?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten