🟡 🛡️ セキュリティ 2026年5月4日月曜日 · 3 分で読めます ·

ArXiv ARMOR 2025:519の軍事プロンプトで21の商用LLMの安全性を評価する初の軍事ベンチマーク

Editorial illustration: ArXiv ARMOR 2025:519の軍事プロンプトで21の商用LLMの安全性を評価する初の軍事ベンチマーク

バージニア工科大学の研究者がARMOR 2025を発表した。戦争法・交戦規則・統合倫理規程に基づきLLMを評価する初の安全性ベンチマークで、519の教義プロンプトを通じて21の商用モデルをテストし、軍事応用における安全性整合の重大な欠陥を明らかにした。

🤖

この記事はAIにより一次情報源から生成されました。

バージニア工科大学のSydney Johns、Heng Jin、Chaoyu Zhang、Y. Thomas Hou、Wenjing Louは2026年4月30日にARMOR 2025を発表した。これはLLMを民間ではなく軍事基準で評価する初の安全性ベンチマークだ。HarmBenchのようなテストが一般的な有害行動(爆弾製造の説明、偽情報)を測定するが、軍事作戦の文脈の理解はテストしない—という空白を埋める研究だ。

出発点は、既存のフレームワークが戦争法、交戦規則(ROE)、統合倫理規程(職業軍人の基礎的な教義的枠組み)の下での合法的行動と違法行動を区別できないことにある。軍事的文脈のクエリをすべて盲目的に拒否するモデルは、無条件に応じるモデルと同様に実用性がない。

ベンチマークの構成は?

ARMOR 2025は12カテゴリの分類体系OODAフレームワーク(観察、定向、決定、行動)で構造化された519の教義的プロンプトで構成される。各プロンプトには明確な教義的参照がある—どの規制や国際法規が適用されるか、モデルに期待される行動は何かが明示されている。

プロンプトは単純な「Xはどうやる」形式ではなく、合法性、相称性、戦闘員と民間人の区別に関する複雑なシナリオを含む。モデルはシナリオの一部が技術的な実行ではなく教義の問題であることを認識しなければならない。

21の商用モデルはどう対応したか?

研究は21の商用LLMを全分類体系で体系的にテストし、回答の正確性と拒否の一貫性を測定している。個別モデルの詳細な結果は論文の付録にあるが、全般的な結論は軍事応用における安全性整合に重大な欠陥が存在することだ。

最も典型的なエラーは、不一致な拒否(同じ種類のクエリを時には拒否し、時には応じる)、文脈の誤解(仮想シナリオを作戦命令として扱う)、相称性の理解不足だ。

なぜこのベンチマークが今なのか?

各国政府と防衛請負業者が情報源分析のためのチャットアシスタント、報告書作成ツール、意思決定支援システムなどの運用補助手段に商用LLMを積極的に統合している時点で、この研究が登場した。教義的テストなしでは、軍事特有の要素を見落とす民間の安全基準に基づいてデプロイが行われる。

AIベンダー(Anthropic、OpenAI、Google、Mistral、Cohere)にとって、ARMOR 2025は防衛契約を検討する際の非公式な「必須通過」基準となる。研究コミュニティには、主観的な規範ではなく正式な法的枠組みとのモデル整合である教義的整合という分野を開く。

ベンチマークがカバーしていないこと

著者は限界を明確に認めている:ARMOR 2025はアングロ・アメリカン教義(米国統合倫理法規、ペンタゴンが解釈する戦争法)に焦点を当て、欧州の規制(例:連邦軍の指針やフランスのROE)や、NATOを統合的枠組みとして使用した場合のモデル行動は分析していない。これはより広い教義的スペクトルをカバーする次世代ベンチマークの余地を残している。

よくある質問

ARMOR 2025ベンチマークとは何ですか?
ARMOR 2025は、LLMが軍事作戦に関連するクエリを拒否するかどうか、または適切に処理するかどうかを評価する安全性ベンチマークです。OODAフレームワーク(観察・定向・決定・行動)と12の教義的整合カテゴリを通じて組織された519のプロンプトで構成されています。
既存の安全性ベンチマークが軍事的文脈に不十分な理由は何ですか?
HarmBenchのような既存のベンチマークは、文脈なしに一般的な社会的リスク(自殺、暴力、化学兵器)に焦点を当てています。軍事的文脈では、戦争法の下でどの行動が合法か、交戦規則に違反するものは何かを細かく理解する必要があります。軍事関連のクエリをすべて盲目的に拒否するモデルは、無条件に応じるモデルと同様に問題があります。
ベンチマークが使用するOODAフレームワークとは何ですか?
OODA(観察、定向、決定、行動)は1970年代に開発された軍事的意思決定モデルです。ARMORはこの4つの決定段階を通じてテストクエリを構造化し、モデルがどの段階で誤るかを区別できるようにしています。