ArXiv ACIArena: Der erste Benchmark für Prompt-Injection-Angriffe durch Ketten von KI-Agenten

Eine neue Art von Prompt-Injection-Angriff

Multi-Agenten-Systeme (LangGraph, AutoGen, CrewAI, OpenAI Swarm) werden für Aufgaben, die die Koordination mehrerer KI-Agenten erfordern, immer beliebter. Doch jeder Agent, der mit einem anderen Agenten kommuniziert, stellt eine neue Angriffsfläche dar — und laut einer am 10. April veröffentlichten Arbeit ist diese Fläche gefährlich schlecht erforscht.

Das Team unter Leitung von An stellt ACIArena vor — den ersten systematischen Benchmark für Agent Cascading Injection (ACI). Dies ist eine Familie von Angriffen, bei denen:

Ein Angreifer einen bösartigen Prompt in eine Komponente des Systems einschleust (z. B. in ein Dokument, das der erste Agent liest)
Der erste Agent die Eingabe verarbeitet und das „verarbeitete” Ergebnis an den nächsten Agenten weiterleitet
Der bösartige Inhalt sich als legitime systeminterne Kommunikation „präsentiert”
Nachfolgende Agenten die kompromittierten Daten als vertrauenswürdig behandeln
Die Kette sich fortsetzt, bis jemand eine gefährliche Aktion ausführt

Was der Benchmark enthält

ACIArena deckt 1.356 Testfälle über 6 Multi-Agenten-Implementierungen ab. Die Testfälle umfassen:

Verschiedene Eingabevektoren (Dokumente, Webseiten, API-Antworten)
Verschiedene Agenten-Topologien (sequenziell, parallel, hierarchisch)
Verschiedene Arten finaler Aktionen (Lesen von Dateien, Schreiben von Code, Versenden von E-Mails, Ausführen von Shell-Befehlen)

Warum das wichtig ist

Die meisten aktuellen Sicherheitsstudien konzentrieren sich auf Single-Agent-Szenarien — in denen der Nutzer direkt mit einem Modell spricht. Tatsächliche produktive Deployments stützen sich jedoch zunehmend auf Agentenketten, in denen ein Agent den Ergebnissen eines anderen vertraut. ACIArena misst formell, wie schwach dieses „Vertrauen zwischen Agenten” ist.

Für Entwicklerteams, die bereits LangGraph und AutoGen einsetzen, sollte dieser Benchmark zu einem verpflichtenden Bestandteil der Sicherheitsbewertung vor dem Produktions-Deployment werden. Das bisherige Fehlen eines solchen Benchmarks bedeutete, dass Angriffe erst nach Vorfällen entdeckt wurden.

ArXiv ACIArena: Der erste Benchmark für Prompt-Injection-Angriffe durch Ketten von KI-Agenten

Eine neue Art von Prompt-Injection-Angriff

Was der Benchmark enthält

Warum das wichtig ist

Quellen

Verwandte Nachrichten