arXiv:2605.16090: CrossMPI画像のみのVLM攻撃手法

arXiv:2605.16090は、テキストを一切使用せず、画像ピクセルへの不可視の摂動だけで視覚言語モデルに悪意ある指示を注入するCrossMPIを提案しています。研究者はマルチモーダル統合の重要層がモデルの中間部に位置することを発見し、攻撃の平均成功率（ASR）は66.36%と、すべての既知ベースライン手法を40.91ポイント上回ります。

CrossMPIとは何か、なぜ危険なのか

研究者（Hao Yang、Zhuo Ma、Yang Liuら）が発表した論文arXiv:2605.16090は、CrossMPIを提案しています。これは、攻撃者のテキストを一切使用せず、画像の摂動のみで大規模視覚言語モデル（LVLM）へのプロンプトインジェクション攻撃を行う手法です。

プロンプトインジェクションとは、AIモデルに隠れた指示を埋め込んで動作を変える攻撃です。CrossMPIはその原理をマルチモーダル空間に拡張します。悪意ある指示は、人間の目では知覚できない微細なピクセル変化――adversarial perturbation――としてエンコードされます。

視覚言語モデルは画像とテキストを受け取り、内部で共通表現空間に融合させた上で応答を生成します。まさにこのステップ――マルチモーダル統合――が最も脆弱な攻撃ポイントであることが明らかになりました。

既成概念を覆す発見：重要層はモデルの中間部に存在する

これまでの研究では、Transformerアーキテクチャの出力層が操作に最も敏感と考えられていました。CrossMPIはそれを実験的に覆します。

摂動に最適な層はVLMの中間部にあり、末尾ではありません。出力層に特化した防御機構は、深く埋め込まれた攻撃を見逃します。これらの中間層の最適化空間は約10⁷パラメータ（視覚埋め込みの10⁵と比較して）であり、これが攻撃の到達範囲が劇的に拡大する根本的な理由です。

この手法は層選択戦略（重要層の自動特定）と減衰摂動バジェット割り当て（意味的に重要な領域に近いピクセルにより大きな摂動を付与）を組み合わせています。

実験結果：ベースライン手法を大幅に上回る

CrossMPIは6つのVLMでテストされました：MiniGPT4-Llama2、MiniGPT4-Vicuna、InstructBLIP、BLIP-2、BLIVA、Qwen2.5-VL。3つのデータセット（MSCOCO、ImageNet、TextVQA）を使用しています。

平均攻撃成功率（ASR）は66.36%で、4つのベースライン手法の平均を40.91ポイント上回ります（ARE-W: 8.24%、CI: 54.57%、ATPI: 4.41%）。BLIP-2とMSCOCOではASRが**96.08%**に達し、視覚的歪みは最小限です（LPIPS ~18–20、ベースライン手法の70–85と比較して）。

セキュリティへの深刻な影響

入力画像を制御できる攻撃者――例えば文書、写真、Webコンテンツ――は、フィルターが検出できるテキストなしでVLMの動作を変えることができます。あらゆる本番環境のVLM実装（文書分析、医療診断、視覚機能付きチャットボット）が潜在的に脆弱です。

著者は、防御戦略は出力層への集中を止め、実際のマルチモーダル統合が起きているモデル中間層に目を向けなければならないと結論付けています。

よくある質問

視覚言語モデル（VLM）とは何ですか？

視覚言語モデル（VLM）は、画像とテキストを同時に理解するマルチモーダルAIシステムです。代表例としてBLIP-2、InstructBLIP、Qwen2.5-VLが挙げられます。モデルは視覚的・テキスト的入力を受け取り、内部で共通表現空間に統合した上でテキスト応答を生成します。

CrossMPI攻撃はどのように機能しますか？

CrossMPIは、人間の目には見えない微細なピクセル変化（adversarial perturbation）をモデルの隠れ状態空間で直接最適化します。視覚埋め込み（10⁵パラメータ）ではなく、マルチモーダル統合が行われる中間層（10⁷パラメータ）を標的とすることで、悪意ある指示の注入成功率を劇的に向上させます。

「モデルの中間層」という発見がなぜ重要なのですか？

これまでのadversarial攻撃研究では、Transformerアーキテクチャの最終（出力）層が操作に最も脆弱と想定されていました。CrossMPIはその逆を実証的に証明しています。マルチモーダル統合の重要層はVLMの「中間部」に存在するため、出力層に集中していたこれまでの防御機構はすべて再評価が必要です。

arXiv:2605.16090: CrossMPI――画像の摂動のみで視覚言語モデルを攻撃するクロスモーダルプロンプトインジェクション

CrossMPIとは何か、なぜ危険なのか

既成概念を覆す発見：重要層はモデルの中間部に存在する

実験結果：ベースライン手法を大幅に上回る

セキュリティへの深刻な影響

よくある質問

出典

関連ニュース