🟡 🛡️ Sicherheit Donnerstag, 7. Mai 2026 · 2 Min. Lesezeit ·

arXiv:2605.04019: Automatisierter Red-Teaming-Agent erreicht 85 % Erfolgsquote gegen Metas Llama Scout mit 45+ Angriffen und 450+ Transformationen

arXiv:2605.04019 ↗

Editorial illustration: Automatisierter Agent startet gleichzeitig Dutzende Angriffsvektoren gegen ein Sprachmodell auf einem Kontrollpanel-Bildschirm

Eine neue Arbeit stellt ein agentisches Red-Teaming-System vor, das auf dem Dreadnode SDK aufgebaut ist und mit 45+ Angriffen, 450+ Transformationen und 130+ Scorern eine Erfolgsquote von 85 % gegen Metas Llama Scout erreicht — Sicherheitstests verkürzen sich von Wochen auf Stunden, ohne manuell geschriebenen Code.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

Eine neue arXiv-Arbeit beschreibt ein System, das offensives Sicherheitstesten von KI-Modellen vollständig automatisiert. Die Autoren Raja Sekhar Rao Dheekonda, Will Pearce und Nick Landers zeigen, wie ein agentischer Ansatz, aufgebaut auf dem Dreadnode SDK, die Ökonomik des Red Teamings verändert — Sicherheitstests, die bisher wochenlange Expertenarbeit erforderten, werden ohne eine einzige Zeile manuell geschriebenen Angriffscodes auf wenige Stunden reduziert.

Wie ersetzt der Agent Wochen manueller Arbeit?

Red Teaming ist im Sicherheitskontext der Prozess, bei dem Spezialisten systematisch nach Modellschwächen suchen — von adversariellen Beispielen bis zu Jailbreak-Prompts und multimodalen Angriffen. Klassischerweise führen dies Teams durch, die Angriffe manuell zusammenstellen und einzeln ausführen.

Das vorgeschlagene System verwendet stattdessen einen Katalog mit 45+ Angriffen, 450+ Transformationen und 130+ Scorern, die der Agent autonom kombiniert. Ein Operator gibt über ein Terminal User Interface ein Ziel in natürlicher Sprache vor, und der Agent wählt Vektoren, wendet Variationen an und bewertet das Ergebnis.

Was zeigen die Zahlen gegen Llama Scout?

Bei der Evaluation gegen Metas Llama-Scout-Modell erreicht der Agent eine Erfolgsquote von 85 % mit maximaler Schwere von 1,0 gemäß internen Scorern. Der gesamte Zyklus — vom gesetzten Ziel bis zum umfassenden Bericht — läuft in der Größenordnung von Stunden, nicht Wochen wie bisher für einen ähnlichen Testumfang üblich.

Entscheidend ist, dass der Agent ohne menschlich entwickelten Code arbeitet: Der gesamte adversarielle Workflow wird aus verfügbaren Komponenten generiert, was das Nadelöhr spezialisierter Red-Teaming-Ingenieure beseitigt, die in der Branche chronisch fehlen.

Was ändert das für Sicherheitsteams?

Das agentische Framework deckt sowohl klassische ML-adversarielle Beispiele als auch generative KI-Jailbreaks in einem einzigen einheitlichen System ab — ein Ansatz, der bisher auf verschiedene Tools verteilt war. Für Enterprise-Sicherheitsteams und KI-Labs, die kontinuierlich neue Modelle evaluieren müssen, bedeutet das eine deutliche Steigerung der Testfrequenz.

Die Arbeit reiht sich in eine wachsende Welle von Forschung ein, die agentische Automatisierung auf Sicherheitsdisziplinen anwendet, ähnlich wie SOC-Analysten früher begannen, KI-Assistenten für die Incident-Triage einzusetzen. Offen bleibt die Frage, wie übertragbar die Ergebnisse auf geschlossene kommerzielle Modelle mit anderen Safety-Filtern sind — Llama Scout ist ein Open-Weight-Ziel, das detaillierte Instrumentierung ermöglicht, die bei API-only-Modellen nicht verfügbar ist.

Häufig gestellte Fragen

Was ist Red Teaming im KI-Kontext?
Red Teaming ist der Prozess kontrollierter Angriffe auf ein KI-System, um Sicherheitslücken zu entdecken — von klassischen adversariellen Beispielen bis zu Jailbreak-Prompts — bevor ein echter Angreifer sie ausnutzt.
Was macht der Agent anders als manuelles Red Teaming?
Ein Operator gibt über ein Terminal User Interface ein Ziel in natürlicher Sprache vor, und der Agent kombiniert autonom Angriffe, Transformationen und Scorer aus dem Dreadnode-Katalog — ohne manuelle Workflow-Zusammenstellung oder benutzerdefinierten Code.
Was bedeutet die Erfolgsquote von 85 %?
In 85 % der getesteten Angriffsszenarien gelang es dem Agenten, unerwünschtes Verhalten in Metas Llama-Scout-Modell auszulösen, mit maximaler Schwere von 1,0 gemäß den System-Scorern.