🔴 🛡️ セキュリティ 公開日: · 3 分で読めます ·

ArXiv:MemJack——マルチエージェント攻撃がビジョン言語モデルの防御を最大90%の成功率で突破

MemJackはビジョン言語モデル(VLM)に対する新しいジェイルブレーク攻撃フレームワークで、従来のピクセル摂動ではなく複数エージェントの協調を利用します。未修正のCOCO画像でテストし、Qwen3-VL-Plusに対して71.48%の攻撃成功率を達成し、計算予算を拡大すると90%まで向上します。研究者たちは防御研究のために113,000件以上のインタラクティブなトラジェクトリーを公開することを発表しています。

🤖

この記事はAIにより一次情報源から生成されました。

テキストと画像の理解を組み合わせたマルチモーダルAIモデル——ビジョン言語モデル(VLM)として知られる——が新しいカテゴリのセキュリティ脅威に直面しています。Jianhao Chenが率いる研究チームがMemJackを発表しました。これはVLMのセキュリティメカニズムを回避するために複数エージェントの協調を利用するフレームワークで、憂慮すべき高い成功率を達成しています。

MemJackはどのようにしてセキュリティ保護を回避しますか?

人間の目には見えない画像の微妙な変化であるピクセル摂動に依存する従来のアプローチとは異なり、MemJackはまったく異なる戦略を使用します。システムは画像コンテンツの意味的理解を通じて視覚要素を有害な目標にマッピングし、次に多視点カモフラージュ技術を使用して敵対的プロンプトを生成します。

主要なイノベーションは複数の専門化されたエージェントの協調にあります。1つのエージェントが視覚コンテンツを分析し、別のエージェントがカモフラージュ戦略を生成し、3番目のエージェントがモデルのセキュリティメカニズムを回避するために幾何学的フィルタリングを適用します。システムはコンピュータービジョンの標準データセットであるCOCOデータセットから完全に未修正の画像を使用します——これにより、既存の防御がピクセルレベルでの操作を検出できないため、特に危険です。

なぜ永続的メモリが重要なコンポーネントなのですか?

MemJackはインタラクションを通じて成功した戦略を蓄積する永続的メモリコンポーネントを導入します。攻撃が成功するたびにシステムの知識ベースが充実し、新しい画像に対する将来の攻撃がより効果的になります。この経験から学ぶメカニズムは、システムが時間とともにより危険になることを意味します。

Qwen3-VL-Plusモデルのテストで、MemJackは71.48%の攻撃成功率(ASR)を達成します。計算予算を拡大——より多くのイテレーションとエージェント——すると、その割合は驚異的な90%まで上昇します。これは10枚の画像のうち9枚がマルチモーダルモデルへの攻撃ベクターとして機能できることを意味します。

これはマルチモーダルモデル業界にとって何を意味しますか?

結果はVLMのセキュリティアーキテクチャにおける根本的な問題を示しています。これまでの防御は、修正された画像の検出や明示的に有害なテキストプロンプトのフィルタリングに主に焦点を当てていました。MemJackは、攻撃者が完全に合法的な画像と巧妙に作成されたプロンプトを使用してこれらの保護を回避できることを示しています。

研究者たちは113,000件以上のインタラクティブなマルチモーダル攻撃トラジェクトリーを含むMemJack-Benchデータセットの公開リリースを発表しています。目的は防御研究者がより強固な保護メカニズムを開発できるようにすることです。これは両刃の剣です——防御に役立つ同じデータが攻撃者にも役立つ可能性がありますが、研究チームは透明性が最終的に防御側に利益をもたらすと考えています。

医療画像分析から自動運転まで、本番システムでVLMを使用している企業にとって、MemJackは警告を発しています:セキュリティ評価には、孤立した操作の試みだけでなく、協調したマルチエージェント攻撃への耐性テストを含める必要があります。

よくある質問

MemJackとは何で、どのように機能しますか?
MemJackはビジョン言語モデルのセキュリティテストフレームワークで、複数の協調エージェントを使用して視覚要素を有害な目標にマッピングし、元の画像を修正せずに敵対的プロンプトを生成します。
MemJack攻撃の成功率はどのくらいですか?
Qwen3-VL-Plusモデルで71.48%の攻撃成功率(ASR)を達成し、計算予算を拡大するとその割合は90%まで上昇します。
この研究がAIシステムのセキュリティにとって重要な理由は何ですか?
画像の技術的な操作を必要としないマルチモーダルモデルの新しいクラスの脆弱性を明らかにしており、これはピクセル摂動検出に基づく既存の防御が十分ではないことを意味します。