🔴 🛡️ セキュリティ 2026年5月5日火曜日 · 3 分で読めます ·

ArXiv:視覚画像がVLMの安全フィルターを40.9%の確率で回避、ICML 2026論文が明らかに

編集イラスト:突破された視覚セキュリティシェルと亀裂から流れ出る画像の流れ、VLMフィルターへの攻撃の象徴

研究者のAharon Azulay、Jan Dubiński、Zhuoyun LiがICML 2026で、視覚モダリティを利用してビジョン言語モデルの安全アライメントを回避する4種類の攻撃クラスを発表しました。視覚エンコーダーはClaude Haiku 4.5で40.9%の成功率を達成し、同等のテキスト攻撃はフィルターをわずか10.7%しか突破できませんでした。これにより、画像が純粋な言語モデルには存在しない攻撃クラスをもたらすことが確認されました。

🤖

この記事はAIにより一次情報源から生成されました。

Aharon Azulay、Jan Dubiński、Zhuoyun Liのチームは2026年5月1日にArXivで論文**「視覚モダリティを通じたビジョン言語モデルのジェイルブレイク」**を公開しました。この論文はInternational Conference on Machine Learning(ICML)2026に採択されており、ビジョン言語モデル(VLM)の視覚入力が、テキストで訓練された安全アライメントの及ばない攻撃面の一クラスであることを体系的に記録しています。

画像が開く新たな攻撃ベクターとは何か?

視覚モダリティは安全アライメントを回避するための未探索の攻撃面を表していると著者らは述べています。テキストで訓練されたフィルターは、画像が自然にサポートする意味論的変換——指示を画像シンボルとしてエンコードすること、オブジェクトの置換、視覚的アナロジーの組み合わせ——をカバーしません。その結果、純粋な言語モデルでは拒否されるはずの攻撃が視覚チャンネルを通過してしまいます。

著者らは4つの攻撃クラスを示しました:

  1. 視覚エンコーダー — 解読用凡例付きの視覚シンボル列として有害な指示をエンコード
  2. オブジェクト置換 — 有害な用語(爆弾)を無害なもの(バナナ)に置き換え、置換後の用語を使って有害な操作を要求
  3. 画像内テキスト置換 — 視覚コンテキストが元の解釈を保持したまま、有害なテキストを無害な言語手段で置き換える
  4. アナロジーパズル — その解答が禁止された概念についての推論を必要とする視覚パズル

攻撃成功率の具体的な指標は?

Claude Haiku 4.5において、視覚エンコーダーは40.9%の成功率を達成しました。同じ概念のテキスト攻撃はフィルターをわずか**10.7%**しか突破できません。差は約4倍であり、視覚モダリティが標準的なフロンティアモデルの一部となる以前には不可能だった差です。

評価は6つのフロンティアVLMを対象としています。他の5つのモデルの具体的な数値は論文本文に記載されていますが、著者らが代表的なケースとしてClaude Haiku 4.5を選んだのは、強力な安全アライメントを持つとされる非常に最近のモデルだからです。

これはエンタープライズとセキュリティチームにとって何を意味するか?

この論文は、テキストプロンプト攻撃にほぼ完全に依存してきた既存のレッドチーム方法論が、VLMリスクを系統的に過小評価していることを示唆しています。マルチモーダルエージェントをデプロイするセキュリティチームは、レッドチームのコーパスを画像入力——特に暗号化シンボル列、視覚的置換攻撃、封鎖された概念についての推論を活性化するアナロジーパズル——まで拡張する必要があります。

より広い意味での影響:テキストで行われた安全アライメント(RLHF——人間のフィードバックによる強化学習)は視覚モダリティには汎化しません。クロスモーダルアライメントは実装上の詳細ではなく、研究上の優先課題となっています。

論文はArXivでID 2605.00583として公開されており、ICML 2026で発表される予定です。

よくある質問

VLMジェイルブレイクにおいて、視覚攻撃はテキスト攻撃より何倍成功しやすいですか?
Claude Haiku 4.5では、視覚エンコーダーが40.9%の成功率を達成し、同等のテキスト攻撃はわずか10.7%しかフィルターを突破できません——約4倍の差です。
論文が定義した4つの攻撃クラスは何ですか?
解読用凡例付きの暗号化視覚シンボル列、有害オブジェクトを無害なもの(爆弾→バナナ)に置き換えて有害な操作を要求する手法、視覚コンテキストを保持しつつ画像内の有害テキストを無害なテキストに置き換える手法、そして禁止された概念についての推論を要するアナロジーパズルです。
研究では何個のモデルがテストされましたか?
6つのフロンティア・ビジョン言語モデルです。この論文はICML 2026に採択されており、純粋なテキストLLMでは構造上不可能な攻撃を説明しています。