MARS:追加トレーニングなしでマルチモーダルAIモデルを保護するテキスト拒否方向
トレント大学の研究者たちはMARSを提案する——テキストLLMから拒否方向を取り込み、追加トレーニング一切なしに画像・動画入力に適用するマルチモーダルセキュリティアプローチだ。一貫したセキュリティ向上と有用性の維持を確認しながら五つの最新マルチモーダルモデルでテスト済みだ。
この記事はAIにより一次情報源から生成されました。
テキスト、画像、動画を同時に処理するマルチモーダル大規模言語モデルは、セキュリティ研究者に新たな課題をもたらす:テキストデータでトレーニングされたセキュリティメカニズムは視覚的モダリティに自動的に転送されない。テキストクエリで有害な回答を引き出せない攻撃者が、慎重に構築された画像や動画シーケンスでそれを達成できる場合がある。
トレント大学コンピュータサイエンス学科の研究チーム——D’Incà、Mancini、Sebe——は、追加トレーニングの一ステップなしにそのギャップを埋める新しいアプローチを提案する。
MARSとは何か?
MARS(Modality-Agnostic Refusal Steering)はシンプルだが強力な前提から出発する:LLMが有害なテキストリクエストを拒否するメカニズムは入力レイヤーだけに位置するのではなく——モデルの活性化空間の深いところにある。これらの拒否方向はモダリティをまたいで——MARSが示すように——汎化可能な幾何学的構造だ。
具体的には:純粋にテキスト部分から抽出された拒否方向を、画像や動画の処理から生じた活性化に適用できる。マルチモーダルモデルは拒否の意味を知っている——MARSはその構造を、通常はアクティブなセキュリティメカニズムとして存在しないモダリティでも活性化する。
MARSをロバストにする三つのメカニズム
アプローチは、拒否の決定が下される第一トークン生成時に協調して機能する三つのコンポーネントに依存する:
活性化の再中心化はモデルが有害なリクエストを自然に拒否する活性化空間の領域への活性化空間のシフトだ。視覚入力から生じる活性化は、テキストモデルが有害なコンテンツを認識するのと同じ幾何学的ゾーンに向けられる。
適応的介入スケーリングは入力が安全なサンプルからどれだけ離れているかに応じて動的に補正の強度を調整する。これにより良性クエリへの副次的影響が軽減され——すべての拒否を一律に強化することでモデルの有用性が損なわれない。
最適レイヤーの選択は第一トークン生成時にどのTransformerレイヤーが拒否の決定に最も大きな影響を持つかを特定し、そこに精密に介入を適用する。これはすべてのレイヤーに適用するよりも効率的で、残りのネットワークとの不要な相互作用を減らす。
主要な利点:マルチモーダルセキュリティデータ不要
マルチモーダルセキュリティへの従来のアプローチは、有害な視覚入力と適切な回答を対応させるデータセットを必要とする——収集に費用がかかり困難であり、ファインチューニングの手順が標準的なタスクでのモデルの有用性を損なう可能性がある。
MARSはそのようなデータを必要としない。モデルにすでに存在するテキスト拒否構造のみを使用する。これにより、共通のLLMバックボーンを共有する任意のマルチモーダルモデルに——再トレーニングなし、GPUクラスターなし、特化したセキュリティデータセットなしに——適用可能だ。
五つの最新マルチモーダルモデルでのテスト
研究者たちは画像と動画を処理する五つの最新SOTAマルチモーダルモデルで評価を実施した。結果は一貫したセキュリティの向上を示した:MARSが有効化されたモデルは、そうでなければテキスト保護を回避する視覚的攻撃に対して有害なコンテンツを生成しにくくなった。
本番環境での重要な条件——セキュリティ介入が有用性を損なわないこと——が満たされた:良性タスクでの有用性は保たれた。回答品質に悪影響を与えるセキュリティ介入は実際には受け入れられないだろう。
著者たちはMARSがロバストなセキュリティトレーニングの代替ではないと強調する——これは迅速かつ大幅なコストなしに既に展開済みのモデルを改善できる軽量なレイヤーだ。元のセキュリティトレーニングとの組み合わせは理論的にさらに良い結果をもたらすはずだ。
より広い文脈:なぜモダリティセキュリティが緊急なのか?
マルチモーダルモデルへの視覚的攻撃は拡大するカテゴリーの脅威だ:敵対的画像、写真に埋め込まれたテキスト、セキュリティフィルターを混乱させるように設計された動画シーケンス。画像アップロード機能を持つチャットボットから視覚コンテンツの自動レビューシステムまでマルチモーダルモデルが本番システムに展開されるにつれ、視覚的モダリティに固有の脆弱性はますます重要になる。
トレーニングを必要としないMARSのアプローチは、組織がファインチューニングのリソースを持たない場合や、モデルがトレーニングにアクセスできない(API onlyの展開)場合に特に価値がある。既存モデルへの軽量な適用可能性は、パラメータへの完全なアクセスを前提とするほとんどの従来のアプローチと一線を画す。
この研究はより広い研究上の疑問を開く:LLMにおけるセキュリティの知識はどの程度モジュール的な性質を持つのか?拒否方向がモダリティ間で成功裡に転送できるなら、同じ原理がタスク、ドメイン、または関連するモデルアーキテクチャ間にも当てはまる可能性がある。
よくある質問
- 拒否方向とは何で、マルチモーダルセキュリティにとってなぜ重要なのか?
- 拒否方向はLLMの活性化空間における幾何学的ベクトルで、モデルが有害なリクエストを拒否するメカニズムを表す。MARSはこれをテキストモデルから取り込み、別のセキュリティデータなしに視覚的モダリティに適用する。
- MARSが追加トレーニングを必要としないことがなぜ重要か?
- トレーニングなしのアプローチは、高価なデータセットやGPUリソースなしに即座に既に展開済みのモデルに適用でき、本番環境使用やAPI onlyシナリオを実用的にする。
- MARSは何件のモデルでテストされたか?
- MARSは五つの最新マルチモーダルモデルで一貫したセキュリティ向上と良性タスクへの有用性の大きな低下なしにテスト済みだ。