ArXiv ARMOR: 519개 군사 프롬프트로 21개 LLM 안전성 평가

버지니아 공대의 Sydney Johns, Heng Jin, Chaoyu Zhang, Y. Thomas Hou, Wenjing Lou는 2026년 4월 30일 ARMOR 2025를 발표했습니다. 이는 LLM을 민간 기준이 아닌 군사 기준으로 평가하는 최초의 안전성 벤치마크입니다. 이 연구는 좀처럼 다루어지지 않는 공백을 채웁니다. HarmBench 같은 테스트는 일반적인 유해 행동(폭탄 제조 지침, 허위 정보)을 측정하지만, 군사 작전의 맥락에 대한 이해는 검증하지 않습니다.

논문의 출발점은 기존 프레임워크가 전쟁법, 교전 규칙(ROE), 합동 윤리 규정—직업 군인의 근본적인 교리 체계—하에서 합법적 행위와 불법적 행위를 구분하지 못한다는 것입니다. 군사 맥락의 질의를 무조건 거부하는 모델은 무조건 수행하는 모델만큼 실제 적용에서 쓸모가 없습니다.

벤치마크 구성

ARMOR 2025는 12개 범주 분류 체계로 구성되고 OODA 프레임워크(관찰·지향·결정·행동)로 구조화된 519개의 교리적 프롬프트로 이루어져 있습니다. 각 프롬프트에는 명확한 교리적 참조가 있습니다. 어떤 규정 또는 국제 법률이 적용되는지, 모델의 예상 행동이 무엇인지를 명시합니다.

프롬프트는 단순한 “X를 어떻게 하는가” 형식이 아닙니다. 합법성, 비례성, 전투원과 민간인의 구분에 관한 복잡한 시나리오를 포함합니다. 모델은 시나리오의 일부가 기술적 실행이 아닌 교리 문제임을 인식해야 합니다.

21개 상용 모델의 성과

이 연구는 전체 분류 체계에 걸쳐 21개 상용 LLM을 체계적으로 테스트하여 응답 정확도와 거부 일관성을 모두 측정합니다. 개별 모델의 상세 결과는 논문 부록에 있지만, 전반적인 결론은 군사 적용을 위한 안전성 정렬에 심각한 공백이 존재한다는 것입니다.

가장 전형적인 오류는 불일관한 거부(동일한 유형의 질의를 어떤 때는 거부하고 어떤 때는 이행함), 맥락의 잘못된 해석(가상 시나리오를 작전 명령으로 취급함), 비례성 이해 부족입니다.

이 벤치마크가 지금 나온 이유

각국 정부와 방산 업체들이 정보 소스 분석을 위한 채팅 어시스턴트, 보고서 작성 도구, 의사결정 지원 시스템 등 운영 보조 수단으로 상용 LLM을 적극 통합하고 있는 시점에 이 연구가 나왔습니다. 교리적 테스트 없이는 군사 특수성을 놓치는 민간 안전 기준에 기반하여 배포가 이루어집니다.

AI 벤더(Anthropic, OpenAI, Google, Mistral, Cohere)에게 ARMOR 2025는 비공식적인 “필수 통과” 기준이 됩니다. 연구 커뮤니티에는 주관적 규범이 아닌 공식 법적 프레임워크와의 모델 정렬인 교리적 정렬(doctrinal alignment) 분야를 열어줍니다.

벤치마크가 다루지 않는 것

저자들은 한계를 명시합니다. ARMOR 2025는 앵글로-아메리칸 교리(미국 합동 윤리, 펜타곤이 해석하는 전쟁법)에 집중하며, 유럽 규정(예: 독일 연방군 지침, 프랑스 ROE)이나 NATO를 통합 프레임워크로 사용했을 때의 모델 행동은 분석하지 않습니다. 이는 더 광범위한 교리 스펙트럼을 다루는 차세대 벤치마크의 여지를 남깁니다.

자주 묻는 질문

ARMOR 2025 벤치마크란 무엇인가?

ARMOR 2025는 LLM이 군사 작전 관련 질의를 거부하거나 올바르게 처리하는지를 평가하는 안전성 벤치마크입니다. OODA 프레임워크(관찰-지향-결정-행동)와 12개 교리 분류 범주를 통해 구성된 519개의 프롬프트로 이루어져 있습니다.

기존 안전성 벤치마크가 군사 맥락에서 불충분한 이유는?

HarmBench 같은 기존 벤치마크는 맥락 없이 자살, 폭력, 화학 무기 등 일반 사회적 위험에 초점을 맞춥니다. 군사 맥락에서는 전쟁법 하에서 어떤 행위가 합법인지, 교전 규칙을 위반하는 것이 무엇인지를 세밀하게 이해해야 합니다. 군사 관련 질의를 무조건 거부하는 모델은 무조건 응하는 모델만큼 실제 적용에서 문제가 됩니다.

벤치마크가 사용하는 OODA 프레임워크란?

OODA(Observe, Orient, Decide, Act)는 1970년대에 개발된 군사 의사결정 모델입니다. ARMOR은 테스트 질의를 이 4단계로 구조화하여 모델이 어느 단계, 즉 상황 인식·평가·선택·실행 중 어디서 오류를 범하는지 구분할 수 있도록 합니다.

ArXiv ARMOR 2025: 519개 프롬프트로 21개 상용 LLM의 군사 안전성을 평가한 최초의 군사 벤치마크

벤치마크 구성

21개 상용 모델의 성과

이 벤치마크가 지금 나온 이유

벤치마크가 다루지 않는 것

자주 묻는 질문

출처

관련 뉴스