ArXiv ARMOR: 519 vojnih promptova testira 21 LLM sigurnost

Istraživači Virginia Tech-a objavili su ARMOR 2025, prvi sigurnosni benchmark koji ocjenjuje LLM-ove prema Zakonu rata, Pravilima angažmana i Joint Ethics Regulation. Test sa 519 doktrinarnih promptova kroz 21 komercijalni model otkriva kritične praznine — postojeće sigurnosne evaluacije ne testiraju je li model uskladiv s pravnim i etičkim pravilima vojnih operacija.

Sydney Johns, Heng Jin, Chaoyu Zhang, Y. Thomas Hou i Wenjing Lou s Virginia Tech-a objavili su 30. travnja 2026. ARMOR 2025 — prvi sigurnosni benchmark koji LLM-ove evaluira prema vojnim, a ne civilnim standardima. Rad popunjava prazninu o kojoj se rijetko piše: testovi tipa HarmBench mjere generalno štetno ponašanje (uputstvo za bombu, dezinformacije), ali ne testiraju razumijevanje konteksta vojnih operacija.

Polazna teza je da postojeći okviri ne razlikuju legalnu od ilegalne radnje pod Zakonom rata, Pravilima angažmana i Joint Ethics Regulation — temeljnim doktrinarnim okvirima profesionalne vojske. Model koji slijepo odbija svaki upit s vojnim kontekstom jednako je beskoristan u praktičnoj primjeni kao i model koji bezuvjetno udovoljava.

Što je sastav benchmarka?

ARMOR 2025 sastoji se od 519 doktrinarno utemeljenih promptova organiziranih kroz 12-kategorijsku taksonomiju i strukturiranih po OODA okviru: Observe (uočavanje), Orient (procjena), Decide (odluka), Act (akcija). Svaki prompt ima jasnu doktrinarnu referencu — koja regulacija ili međunarodni propis se primjenjuje, što je očekivano ponašanje modela.

Promptovi nisu obično “kako napraviti X” — uključuju složene scenarije s pitanjima legalnosti, proporcionalnosti i razlikovanja kombatanata od civila. Model mora prepoznati da je dio scenarija pitanje doktrine, ne tehnička izvedba.

Kako se 21 komercijalni model ponio?

Rad sustavno testira 21 komercijalni LLM kroz cijelu taksonomiju, mjereći kako točnost odgovora tako i konzistentnost odbijanja. Detaljni rezultati za pojedine modele su u prilozima rada, ali generalan zaključak: postoje kritične praznine u sigurnosnom uskladivanju za vojne primjene.

Najtipičnije pogreške uključuju nedosljedno odbijanje (model jednom odbija, drugi put ispunjava istu vrstu upita), pogrešno tumačenje konteksta (tretira hipotetski scenarij kao operativni nalog), i nedostatak razumijevanja proporcionalnosti.

Zašto ovaj benchmark sad?

Tema dolazi u trenutku kada vlade i obrambeni izvođači aktivno integriraju komercijalne LLM-ove u operativna pomoćna sredstva — chat-asistente za analizu obavještajnih izvora, alate za pripremu izvještaja, sustave podrške odlučivanju. Bez doktrinarnog testa, deployment se temelji na civilnim sigurnosnim mjerilima koja propuštaju vojne specifičnosti.

Za AI vendore (Anthropic, OpenAI, Google, Mistral, Cohere) ARMOR 2025 postaje neformalni “must pass” ako žele biti razmatrani za obrambene ugovore. Za istraživačku zajednicu, benchmark otvara područje doctrinal alignment — uskladivanje modela s formalnim pravnim okvirima, ne samo sa subjektivnim normama.

Što benchmark ne pokriva

Autori jasno priznaju ograničenja: ARMOR 2025 fokusira se na anglo-američku doktrinu (US Joint Ethics, Law of War kako ga interpretira Pentagon), ne uključuje europske propise (npr. Bundeswehrove smjernice ili francuske ROE), niti analizira kako bi se modeli ponašali pod NATO-om kao kombiniranim okvirom. To otvara prostor za sljedeće generacije benchmarka koji bi pokrili širi doktrinarni spektar.

Česta pitanja

Što je ARMOR 2025 benchmark?

ARMOR 2025 je sigurnosni benchmark koji ocjenjuje hoće li LLM-ovi odbijati ili ispravno tretirati upite vezane uz vojne operacije. Sadrži 519 promptova organiziranih kroz OODA okvir (Observe-Orient-Decide-Act) i 12 kategorija doktrinarnog uskladivanja.

Zašto postojeći sigurnosni benchmarci nisu dovoljni za vojni kontekst?

Postojeći benchmarci poput HarmBench-a fokusiraju se na općedruštvene rizike (samoubojstvo, nasilje, kemijsko oružje) bez konteksta. Vojni kontekst zahtijeva fino razumijevanje koje radnje su legalne pod Zakonom rata, a koje krše Pravila angažmana — modeli koji slijepo odbijaju sve vojno povezane upite jednako su problematični kao oni koji ih bezuvjetno ispunjavaju.

Što je OODA okvir koji benchmark koristi?

OODA (Observe, Orient, Decide, Act) je vojni model donošenja odluka razvijen 1970-ih. ARMOR organizira testne upite kroz te četiri faze odlučivanja, omogućujući diferencijaciju gdje točno u procesu model griješi — pri prepoznavanju situacije, procjeni, izboru ili izvedbi.

ArXiv ARMOR 2025: prvi vojni benchmark za LLM sigurnost s 519 promptova kroz 21 komercijalni model

Što je sastav benchmarka?

Kako se 21 komercijalni model ponio?

Zašto ovaj benchmark sad?

Što benchmark ne pokriva

Česta pitanja

Izvori

Povezane vijesti