🟡 🛡️ Sicherheit Veröffentlicht: · 2 Min. Lesezeit ·

arXiv:2606.05523: CHASE — ko-evolutionäres Red-Blue-Teaming durch Reinforcement Learning

arXiv:2606.05523 ↗

Redaktionelle Illustration: CHASE — ko-evolutionäres Red-Blue-Teaming durch Reinforcement Learning

CHASE ist ein Closed-Loop-Framework, in dem ein Angreifer- und ein Verteidigermodell durch Reinforcement Learning ko-evoluieren. Der Angreifer nutzt GRPO, um Prompts unter Beibehaltung der Absicht umzuschreiben, während die Verteidigung durch zweistufiges Training gestärkt wird. Das Ergebnis ist eine Senkung des Vulnerability-Scores um 43,2 % bei einer Null-Rate falscher Ablehnungen bei harmlosen Eingaben.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

Die Arbeit arXiv:2606.05523 (v1, 4. Juni 2026, 00:06 UTC) stellt CHASE vor, ein Closed-Loop-Framework, in dem ein Angreifer- und ein Verteidigermodell durch Reinforcement Learning (RL) ko-evoluieren. Ziel ist die Stärkung der Sicherheit großer Sprachmodelle durch die gleichzeitige Entwicklung von Angriff und Verteidigung.

Was ist CHASE und wie ist es strukturiert?

CHASE ist ein Closed-Loop-Framework für Red-Blue-Teaming. In der Sicherheitsterminologie steht das Red Team für einen Angreifer, der nach Schwachstellen sucht, und das Blue Team für die Verteidigung. Die Besonderheit von CHASE besteht darin, dass Angreifer und Verteidigermodell nicht getrennt agieren, sondern ko-evoluieren: Während der Angreifer neue Angriffe entwickelt, passt sich die Verteidigung an, und diese Anpassung zwingt den Angreifer wiederum zur weiteren Evolution. Es handelt sich um eine geschlossene Schleife, in der beide Seiten gegeneinander Fortschritte machen.

Wie funktioniert die Angreiferseite?

Der Angreifer in CHASE nutzt GRPO, um Prompts unter Beibehaltung der Absicht umzuschreiben. Der Schlüssel liegt darin, dass der Angriff den Eingabe-Prompt so umschreibt, dass er die Verteidigung umgeht, aber die ursprüngliche (schädliche) Absicht beibehält. So werden realistische, vielfältige Angriffsbeispiele erzeugt, die dem Verteidigermodell als anspruchsvolles Trainingsmaterial dienen.

Wie wird die Verteidigung gestärkt?

Die Verteidigungsseite wird durch zweistufiges Training gestärkt, das RL und Rejection Sampling kombiniert. Die erste Stufe nutzt Reinforcement Learning, die zweite Rejection Sampling — die Auswahl hochwertiger Antwortbeispiele — zur weiteren Festigung der Verteidigung. Mit dieser Kombination lernt das Verteidigermodell, von dem GRPO-Angreifer erzeugte Angriffe abzuwehren, während es die Fähigkeit behält, normal auf harmlose Anfragen zu antworten.

Wie lauten die Ergebnisse?

Das wichtigste Ergebnis ist eine Senkung des Vulnerability-Scores um 43,2 %. Ebenso wichtig ist, dass dies bei einer Null-Rate falscher Ablehnungen (false refusals) bei harmlosen Eingaben erreicht wurde — das Modell lehnt harmlose Anfragen trotz der gestärkten Verteidigung nicht ab. Damit adressiert CHASE ein häufiges Problem des Sicherheitstrainings, bei dem eine stärkere Verteidigung oft zu übermäßiger Ablehnung legitimer Anfragen führt.

Generalisieren die erlernten Angriffe?

Ja. Laut der Arbeit generalisieren die erlernten Angriffsmuster über verschiedene mechanische Angriffsfamilien hinweg. Das ist ein wichtiger Befund, denn er zeigt, dass die innerhalb des CHASE-Frameworks erlernte Verteidigung nicht eng ist — sie verteidigt nicht nur gegen den einen Angriffstyp, auf dem sie trainiert wurde, sondern überträgt sich auch auf andere Mechanismen. Eine solche Generalisierung macht den ko-evolutionären Ansatz vielversprechend für den Aufbau robusterer, breit widerstandsfähiger Sicherheitsverteidigungen in großen Sprachmodellen.

Häufig gestellte Fragen

Was ist CHASE?
CHASE ist ein Closed-Loop-Framework für Red-Blue-Teaming, in dem der Angreifer (Red Team) und das Verteidigermodell (Blue Team) ko-evoluieren. Der Angreifer nutzt GRPO, um Prompts unter Beibehaltung der ursprünglichen Absicht umzuschreiben, und das Verteidigermodell lernt, sich gegen die so erzeugten Angriffe zu verteidigen.
Welche Ergebnisse erzielt CHASE?
CHASE senkt den Vulnerability-Score um 43,2 % und hält dabei eine Null-Rate falscher Ablehnungen (false refusals) bei harmlosen Eingaben aufrecht. Das bedeutet eine stärkere Verteidigung ohne Verlust an Nützlichkeit bei harmlosen Anfragen.
Generalisieren die erlernten Angriffe?
Ja. Laut der Arbeit generalisieren die erlernten Angriffsmuster über verschiedene mechanische Angriffsfamilien hinweg, was darauf hindeutet, dass die durch CHASE erlernte Verteidigung nicht auf einen einzigen Angriffstyp beschränkt ist.