ARMOR 2025: 519 Militär-Prompts testen 21 LLM-Modelle

Forscher der Virginia Tech haben ARMOR 2025 veröffentlicht, den ersten Sicherheitsbenchmark, der Sprachmodelle anhand des Kriegsrechts, der Einsatzregeln und der Joint Ethics Regulation bewertet. Der Test mit 519 doktrinären Prompts über 21 kommerzielle Modelle deckt kritische Lücken auf — bestehende Sicherheitsevaluierungen prüfen nicht, ob Modelle mit den rechtlichen und ethischen Regeln militärischer Operationen konform sind.

Sydney Johns, Heng Jin, Chaoyu Zhang, Y. Thomas Hou und Wenjing Lou von der Virginia Tech veröffentlichten am 30. April 2026 ARMOR 2025 — den ersten Sicherheitsbenchmark, der Sprachmodelle nach militärischen statt zivilen Standards bewertet. Die Arbeit schließt eine selten diskutierte Lücke: Tests wie HarmBench messen allgemein schädliches Verhalten (Bombenanleitungen, Desinformation), prüfen aber nicht das Verständnis des Kontexts militärischer Operationen.

Die grundlegende These: Bestehende Rahmenwerke unterscheiden nicht zwischen legalen und illegalen Handlungen nach Kriegsrecht, Einsatzregeln und Joint Ethics Regulation — den zentralen Doktrinrahmen professioneller Streitkräfte. Ein Modell, das jede militärisch kontextierte Anfrage blind ablehnt, ist in der praktischen Anwendung ebenso nutzlos wie eines, das bedingungslos nachgibt.

Woraus besteht der Benchmark?

ARMOR 2025 umfasst 519 doktrinär fundierte Prompts, organisiert in einer 12-Kategorien-Taxonomie und nach dem OODA-Rahmen strukturiert: Observe (Beobachten), Orient (Ausrichten), Decide (Entscheiden), Act (Handeln). Jeder Prompt trägt eine explizite doktrinäre Referenz — welche Regulation oder welches internationale Recht gilt und welches Modellverhalten erwartet wird.

Die Prompts sind keine einfachen „Wie mache ich X”-Anfragen — sie enthalten komplexe Szenarien zu Legalität, Verhältnismäßigkeit und der Unterscheidung von Kombattanten und Zivilisten. Das Modell muss erkennen, dass ein Teil des Szenarios eine Doktrin-Frage ist, keine technische Ausführungsaufgabe.

Wie schnitten die 21 kommerziellen Modelle ab?

Das Paper testet 21 kommerzielle Sprachmodelle systematisch durch die gesamte Taxonomie und misst sowohl Antwortgenauigkeit als auch Konsistenz der Ablehnungen. Detaillierte Ergebnisse pro Modell finden sich in den Anhängen, aber das allgemeine Fazit ist klar: Es gibt kritische Lücken bei der Sicherheitsausrichtung für militärische Anwendungen.

Die häufigsten Fehler umfassen inkonsistente Ablehnungen (das Modell lehnt einmal ab, erfüllt dann denselben Anfragetyp), Fehlinterpretation des Kontexts (ein hypothetisches Szenario wird als operativer Befehl behandelt) und mangelndes Verhältnismäßigkeitsverständnis.

Warum dieser Benchmark jetzt?

Das Thema kommt in einem Moment, in dem Regierungen und Rüstungsunternehmen kommerzielle Sprachmodelle aktiv in operative Hilfsmittel integrieren — Chat-Assistenten für Geheimdienstanalysen, Berichtserstellungstools, Entscheidungsunterstützungssysteme. Ohne doktrinären Test basiert der Einsatz auf zivilen Sicherheitsmaßstäben, die militärische Besonderheiten übersehen.

Für KI-Anbieter (Anthropic, OpenAI, Google, Mistral, Cohere) wird ARMOR 2025 zu einem informellen „Must-pass”, wenn sie für Verteidigungsverträge in Betracht gezogen werden wollen. Für die Forschungsgemeinschaft öffnet der Benchmark das Gebiet des doktrinären Alignments — die Ausrichtung von Modellen an formalen Rechtsrahmen statt an subjektiven Normen.

Was der Benchmark nicht abdeckt

Die Autoren erkennen Einschränkungen klar an: ARMOR 2025 konzentriert sich auf anglo-amerikanische Doktrin (US Joint Ethics, Kriegsrecht nach Pentagon-Interpretation) und umfasst keine europäischen Regelungen (z. B. Bundeswehr-Richtlinien oder französische ROE), noch analysiert er Modellverhalten unter NATO als kombiniertem Rahmen. Das eröffnet Raum für die nächste Benchmark-Generation, die ein breiteres Doktrinspektrum abdeckt.

Häufig gestellte Fragen

Was ist der ARMOR 2025 Benchmark?

ARMOR 2025 ist ein Sicherheitsbenchmark, der bewertet, ob Sprachmodelle militärische Anfragen korrekt ablehnen oder behandeln. Er enthält 519 Prompts, organisiert nach dem OODA-Rahmen (Observe-Orient-Decide-Act) in 12 doktrinären Ausrichtungskategorien.

Warum sind bestehende Sicherheitsbenchmarks für militärische Kontexte unzureichend?

Bestehende Benchmarks wie HarmBench konzentrieren sich auf allgemeine gesellschaftliche Risiken — Suizid, Gewalt, chemische Waffen — ohne Kontext. Der militärische Kontext erfordert ein feines Verständnis, welche Handlungen nach Kriegsrecht legal sind und welche gegen Einsatzregeln verstoßen. Modelle, die alle militärischen Anfragen blind ablehnen, sind ebenso problematisch wie solche, die sie bedingungslos erfüllen.

Was ist der OODA-Rahmen, den der Benchmark verwendet?

OODA (Observe, Orient, Decide, Act) ist ein militärisches Entscheidungsmodell aus den 1970er Jahren. ARMOR organisiert Testanfragen durch diese vier Entscheidungsphasen und ermöglicht die Differenzierung, wo genau im Prozess ein Modell scheitert — bei der Situationserkennung, Bewertung, Wahl oder Ausführung.

ArXiv ARMOR 2025: erster militärischer LLM-Sicherheitsbenchmark mit 519 Prompts über 21 kommerzielle Modelle

Woraus besteht der Benchmark?

Wie schnitten die 21 kommerziellen Modelle ab?

Warum dieser Benchmark jetzt?

Was der Benchmark nicht abdeckt

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten