🟡 🛡️ Sicherheit Donnerstag, 7. Mai 2026 · 2 Min. Lesezeit ·

arXiv:2605.04785: AgentTrust fängt Tool-Aufrufe von KI-Agenten mit 95–97 % Genauigkeit ab

arXiv:2605.04785 ↗

Editorial-Illustration: AgentTrust fängt Tool-Aufrufe von KI-Agenten mit 95–97 % Genauigkeit ab

AgentTrust ist ein Open-Source-Laufzeitsystem, das Tool-Aufrufe von KI-Agenten — Dateioperationen, SQL-Abfragen und Shell-Befehle — abfängt und vor der Ausführung eines von vier Urteilen zurückgibt. Über 930 Testszenarien erreicht es 95–97 % Genauigkeit und etwa 93 % bei shell-obfuszierten Angriffen.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

Ein neues Papier auf arXiv stellt AgentTrust vor, eine Laufzeit-Sicherheitsschicht, die zwischen einem KI-Agenten und seinen Tools sitzt und jeden Aufruf in Echtzeit bewertet, bevor er ausgeführt wird. Das System zielt auf Schwachstellen ab, die entstehen, wenn Agenten umfangreichen Zugriff auf das Betriebssystem und externe Dienste erhalten.

Wie entscheidet AgentTrust, was erlaubt wird?

Für jeden eingehenden Tool-Aufruf gibt AgentTrust eines von vier Urteilen zurück: erlauben, warnen, blockieren oder zur Überprüfung senden. Die Architektur kombiniert einen Shell-Deobfuskations-Normalisierer, eine SafeFix-Komponente für sicherere Alternativen, einen RiskChain-Detektor für mehrstufige Angriffsketten und eine Cache-aware LLM-as-Judge-Schicht für mehrdeutige Eingaben. Abgedeckte Tools umfassen Dateioperationen, SQL-Abfragen und Shell-Befehle — die drei häufigsten Angriffsflächen in produktiven Agentensystemen.

Wie genau ist das System?

Die Evaluierung wurde an insgesamt 930 Szenarien durchgeführt — 300 interne über sechs Risikokategorien und 630 unabhängig konstruierte adversariale Realsituationen. Das Produktions-Ruleset erreicht 95,0 % Urteilsgenauigkeit beim internen Benchmark und 73,7 % Risikoklassen-Genauigkeit bei Latenzen im Millisekundenbereich. Beim 630-Szenario-Set erreicht AgentTrust 96,7 % Genauigkeit, einschließlich etwa 93 % bei shell-obfuszierten Payloads, die einfachere Filter typischerweise umgehen.

Was bedeutet die Open-Source-Veröffentlichung?

Autor Chenglin Yang hat AgentTrust unter der AGPL-3.0-Lizenz veröffentlicht, die abgeleitete Werke zur gleichen Open-Source-Weitergabe verpflichtet. Das System wird als MCP-Server (Model Context Protocol — offener Standard für den Aufruf externer Tools aus LLMs) geliefert, sodass es an jeden Agenten angeschlossen werden kann, der MCP unterstützt, ohne den Agenten-Code zu ändern. Dies senkt die Hürde für die Einführung von Laufzeitkontrollen in bestehende Agenten-Workflows.

Häufig gestellte Fragen

Was fängt AgentTrust ab?
Das System fängt Tool-Aufrufe von KI-Agenten vor ihrer Ausführung ab — konkret Dateioperationen, SQL-Abfragen und Shell-Befehle — und entscheidet in Echtzeit, ob sie erlaubt oder gestoppt werden.
Welche Urteile gibt AgentTrust zurück?
Vier mögliche Urteile: erlauben (allow), warnen (warn), blockieren (block) und zur menschlichen Überprüfung senden (review). Zusätzlich gibt es eine SafeFix-Komponente, die sicherere Alternativen vorschlägt.
Unter welcher Lizenz ist es verfügbar?
Das System ist unter der AGPL-3.0-Open-Source-Lizenz veröffentlicht und wird als MCP-Server geliefert, wodurch es mit jedem Agenten kompatibel ist, der das Model Context Protocol unterstützt.