NRT-Bench: Red-Teaming von KI-Agenten (8,7–12,1 %)

NRT-Bench ist ein Benchmark, der die Widerstandsfähigkeit von KI-Agenten gegenüber adaptiven mehrstufigen adversariellen Angriffen in einem simulierten Kernkraftwerk misst. Forscher stellten fest, dass Angriffe in 8,7–12,1 % der Sitzungen erfolgreich sind und die Schwachstellen je Modell nahezu vollständig verschieden sind.

NRT-Bench: neuer Standard für Sicherheitstests von KI-Agenten

Forscher haben am 18. Juni 2026 NRT-Bench (Nuclear-plant Red-Teaming Benchmark) veröffentlicht — ein Evaluierungsrahmen, der misst, wie widerstandsfähig KI-Agenten (große Sprachmodelle als autonome Betreiber) gegenüber systematischen, adaptiven Angriffen in Umgebungen sind, in denen ein Fehler katastrophale Folgen haben kann. Im Gegensatz zu bisherigen Ansätzen, die auf subjektiver KI-Schadensbewertung beruhen, verwendet NRT-Bench ein objektives Signal: Eine Sitzung endet, sobald der Agent die Kontrolle über eine der sechs kritischen Sicherheitsfunktionen (CSF) des simulierten Kernkraftwerks verliert.

Wie simuliert NRT-Bench reale Bedrohungen?

Ein fünfköpfiges Team virtueller Betreiber — jeder mit einem konfigurierbaren Sprachmodell betrieben — steuert das Kraftwerk, während ein Angreifer in mehrstufigen (Multi-Turn) Sitzungen mit Rückmeldung nach jedem Schritt bösartige Nachrichten über vier Kommunikationskanäle einschleust. „Multi-Turn” bedeutet, dass der Angreifer nicht eine einzige Anfrage sendet, sondern seine Strategie Angriff für Angriff basierend auf der Systemreaktion anpasst — analog zu kontinuierlichem Social Engineering statt einmaligem Phishing. Vier Frontier-Modelle wurden nach dem Paired-Replay-Protokoll getestet, um Reproduzierbarkeit zu gewährleisten.

Ergebnisse: Schwachstellen sind modellspezifisch, nicht universell

Adaptive Multi-Turn-Angriffe kompromittierten Sicherheitsfunktionen in 8,7 bis 12,1 Prozent der Angriffssitzungen — scheinbar ähnliche Aggregate je Modell, jedoch mit einem beunruhigenden Detail: Von 149 getesteten Sitzungen scheiterten alle vier Modelle bei keiner, während ein Drittel mindestens eines zu Fall brachte. Die Schwachstellen sind nahezu disjunkt — was ein Modell durchbricht, durchbricht ein anderes nicht. Noch kritischer für Teams, die Abwehrmaßnahmen entwickeln: Dieselben Schutzmaßnahmen (Guardrail-Stack oder Sicherheitsberater-Agent) senkten die Angriffserfolgsrate bei einem Modell, erhöhten sie aber bei einem anderen.

Offene Infrastruktur für die breitere Gemeinschaft

Die Forscher veröffentlichen die Simulationsumgebung, den Angriffsdatensatz und die Replay-Infrastruktur als Open-Source-Werkzeuge für reproduzierbare Sicherheitsevaluierungen von KI-Agenten. Die Arbeit weist darauf hin, dass Organisationen, die KI-Agenten in sicherheitskritischen Systemen — von der Energiewirtschaft bis zum Gesundheitswesen — einsetzen, nicht davon ausgehen können, dass ein in einer Konfiguration widerstandsfähiges Modell in einer anderen Schutz bietet.

Häufig gestellte Fragen

Was ist NRT-Bench und warum ist er für die KI-Sicherheit wichtig?

NRT-Bench ist ein Benchmark, der KI-Agenten als Betreiber eines simulierten Kernkraftwerks unter mehrstufigen adversariellen Angriffen testet — er liefert ein objektives Sicherheitsmaß, ohne auf eine KI-basierte Schadensbewertung angewiesen zu sein.

Wie anfällig waren die getesteten Modelle gegenüber Multi-Turn-Angriffen?

In 8,7–12,1 % der Angriffssitzungen gelang es dem Angreifer, mindestens eine kritische Sicherheitsfunktion des Kraftwerks zu kompromittieren, wobei sich die Schwachstellen der vier getesteten Modelle kaum überschneiden.

arXiv:2606.20408: NRT-Bench — Benchmark für Multi-Turn-Red-Teaming von KI-Agenten in sicherheitskritischen Systemen

NRT-Bench: neuer Standard für Sicherheitstests von KI-Agenten

Wie simuliert NRT-Bench reale Bedrohungen?

Ergebnisse: Schwachstellen sind modellspezifisch, nicht universell

Offene Infrastruktur für die breitere Gemeinschaft

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten