ArXiv:クロスリンガルジェイルブレークに対するトレーニング不要のガードレールが厳選ベンチマークでAUC 0.99を達成するも、分布シフト時には0.60-0.70に低下
Alanova、Minko、Sadiekh、Kokuykinsのチームは2026年4月28日、セマンティックコードブックを通じたクロスリンガルジェイルブレークのトレーニング不要の防御を提示するArXivプレプリントを発表しました。このアプローチは多言語リクエストの埋め込みを既知の英語ジェイルブレークプロンプトの固定ベースと比較します。厳選ベンチマークではAUCが0.99に達しますが、分布シフトした異種攻撃ではAUC 0.60-0.70に低下し、このアプローチの限界を示しています。
Shirin Alanova、Bogdan Minko、Sabrina Sadiekh、Evgeniy Kokuykiは2026年4月28日、プレプリント**「セマンティックコードブックによるクロスリンガルジェイルブレーク検出」**を発表しました。LLM安全における最も根強い問題の1つを解決しようとする試みです:有害なプロンプトの翻訳が英語中心のガードレールをバイパスします。
問題:クロスリンガルセキュリティギャップ
アブストラクトからの引用:
「大型言語モデルの安全メカニズムは依然として主に英語中心であり、多言語展開における系統的な脆弱性を生み出している。先行研究は、悪意あるプロンプトを他の言語に翻訳することでジェイルブレーク成功率を大幅に増加させられることを示している。」
言い換えれば:**「爆弾の作り方」**をクロアチア語、韓国語、またはアムハラ語に翻訳すると、安全フィルタのトレーニングデータが主に英語であるため、多くのRLHFトレーニングされたフィルタは反応しません。これは現在のポストトレーニングの構造的特性です。
提案された解決策
著者たちはブラックボックスLLMのためのトレーニング不要の外部ガードレールを提案します:
- 既知のジェイルブレークプロンプトの固定英語コードブックを維持
- 受信プロンプト(あらゆる言語)を多言語埋め込みモデルでエンコード
- 埋め込みをコードブックと比較 — 類似度が閾値を超えるとジェイルブレーク試みとしてフラグ付け
重要:モデルの再トレーニング不要、言語固有のフィルター不要。埋め込み類似度のみ。
結果
厳選ベンチマーク:AUCが0.99まで
厳選ベンチマーク(コードブックと同じ分布の既知の攻撃)では、このアプローチはほぼ完璧に機能します — AUCが0.99まで。
分布シフトベンチマーク:AUC 0.60-0.70
異種の新しい攻撃(分布シフト)でテストすると、AUCは0.60-0.70に低下します — チャンスよりも大幅に優れていますが、「解決策」とは言えません。
この差異はアプローチの実際の限界を示しているため重要です:コードブックベースの検出は既知の攻撃分布に対しては良好ですが、攻撃者が積極的に生成するクリエイティブな新しい攻撃に対しては性能が低下します。
テストされたモデルと言語
評価は以下で実施されました:
- モデル: Qwen、Llama、GPT-3.5
- 言語: 4つ(取得したアブストラクトでは具体的なリストが記載なし)
なぜ重要なのか?
クロスリンガルジェイルブレークは、10以上の言語でLLMをグローバルに展開するエンタープライズ(例:10以上の言語のカスタマーサポートチャットボット)にとって特に深刻な問題です。英語中心の安全トレーニングは、明示的な多言語安全トレーニング(コストが高い)なしには修正が難しい穴です。
この研究の実際的な影響:
- コードブックアプローチは最初の防御層として展開可能 — 最小限のレイテンシ、トレーニング不要
- 単独の防御としては不十分 — 分布シフトAUC 0.60-0.70は他のメカニズム(多言語安全RLHF、出力フィルタなど)との組み合わせが必要
- AIコンプライアンスの具体的な介入 — EU AI ActとNIST AI RMFは多言語展開のための安全メカニズムの文書化を要求
この研究は昨日カバーした(諂いと条件的ミスアライメント)AI安全研究を継続しています — 普遍的な解決策なしに各攻撃ベクターをカバーするセキュリティ診断の断片の分野。
よくある質問
- なぜLLMのセキュリティメカニズムは英語中心なのですか?
- ほとんどのレッドチームデータセットとファインチューニング安全データは英語です。有害なプロンプトを別の言語に翻訳することで、攻撃者は学習済みの安全フィルタをバイパスできます — 先行研究では攻撃の成功率が大幅に向上することが示されています。クロスリンガルセキュリティギャップは現在のポストトレーニングの構造的特性です。
- セマンティックコードブックはどのように機能しますか?
- システムは既知のジェイルブレークプロンプトの固定英語コードブックを維持します。あらゆる言語の受信プロンプトは多言語埋め込みモデルでエンコードされ、コードブックと比較されます。類似度が閾値を超えると、そのプロンプトはジェイルブレーク試みとしてフラグ付けされます。このアプローチはトレーニング不要です。
- 厳選テストと分布シフトテストの差はどのくらいですか?
- 厳選ベンチマークでAUC 0.99対異種分布シフトでAUC 0.60-0.70。これはコードブックと類似した既知の攻撃に対しては良く機能しますが、新しいまたは変容した攻撃に対しては性能が低下することを意味します。このアプローチは他のメカニズムと組み合わせた最初の防御層として依然として有用です。
この記事はAIにより一次情報源から生成されました。