🟡 🛡️ 安全 2026年5月4日星期一 · 2 分钟阅读 ·

ArXiv ARMOR 2025:519个提示词测试21个商业LLM的军事安全性基准

Editorial illustration: ArXiv ARMOR 2025:519个提示词测试21个商业LLM的军事安全性基准

弗吉尼亚理工大学研究人员发布ARMOR 2025,这是首个根据战争法、交战规则和联合伦理法规对LLM进行安全性评估的基准。包含519个教义提示词,测试21个商业模型,揭示了现有安全评估在军事应用方面的严重不足。

🤖

本文由人工智能基于一手来源生成。

弗吉尼亚理工大学的Sydney Johns、Heng Jin、Chaoyu Zhang、Y. Thomas Hou和Wenjing Lou于2026年4月30日发布了ARMOR 2025——首个按军事而非民用标准评估LLM的安全基准。该研究填补了鲜少被讨论的空白:HarmBench等测试衡量一般有害行为(制炸弹指南、虚假信息),但不测试对军事操作背景的理解。

出发点是现有框架无法区分战争法、交战规则和联合伦理法规(职业军人的基础教义框架)下的合法与非法行动。盲目拒绝所有军事背景查询的模型在实际应用中与无条件满足的模型同样无用。

基准的构成是什么?

ARMOR 2025由519个基于教义的提示词组成,通过12类分类组织并按OODA框架结构化:观察(Observe)、定向(Orient)、决策(Decide)、行动(Act)。每个提示词都有明确的教义参考——适用哪条法规或国际条约,模型的预期行为是什么。

提示词不是普通的”如何做X”——它们包含涉及合法性、相称性以及区分战斗人员与平民的复杂场景。模型必须认识到场景的一部分是教义问题,而非技术执行。

21个商业模型的表现如何?

该研究系统地测试了21个商业LLM的整个分类体系,同时衡量答案准确性和拒绝一致性。个别模型的详细结果在论文附录中,但总体结论是:军事应用的安全对齐存在关键空白

最典型的错误包括拒绝不一致(模型有时拒绝,有时满足同类查询)、背景误解(将假设场景视为操作命令),以及缺乏对相称性的理解。

为什么这个基准现在出现?

在各国政府和国防承包商积极将商业LLM整合到情报源分析聊天助手、报告准备工具和决策支持系统等运营辅助工具的时候,这一研究出现了。没有教义测试,部署就建立在遗漏军事特殊性的民用安全标准上。

对AI供应商(Anthropic、OpenAI、Google、Mistral、Cohere)而言,ARMOR 2025成为非正式的”必须通过”标准。对研究社区而言,它开创了教义对齐领域——将模型与正式法律框架而非主观规范对齐。

基准不涵盖哪些内容

作者明确承认局限性:ARMOR 2025聚焦于英美教义(美国联合伦理法规、五角大楼解释的战争法),不包含欧洲法规(例如德国联邦国防军指导方针或法国ROE),也不分析模型在北约作为综合框架下的行为。这为覆盖更广泛教义谱系的下一代基准留下了空间。

常见问题

ARMOR 2025基准是什么?
ARMOR 2025是一个安全基准,评估LLM是否会拒绝或正确处理军事操作相关的查询。它包含519个组织在OODA框架(观察-定向-决策-行动)和12个教义对齐类别中的提示词。
为什么现有的安全基准不足以应对军事背景?
HarmBench等现有基准聚焦于没有背景的一般社会风险(自杀、暴力、化学武器)。军事背景需要细致理解哪些行动在战争法下是合法的,哪些违反了交战规则——盲目拒绝所有军事相关查询的模型和无条件满足的模型同样存在问题。
基准使用的OODA框架是什么?
OODA(观察、定向、决策、行动)是20世纪70年代开发的军事决策模型。ARMOR通过这四个决策阶段组织测试查询,使得可以区分模型在哪个阶段出错——是在情境识别、评估、选择还是执行阶段。