ArXiv:訓練なしの脱獄 — 研究者が推論時に AI の安全ガードレールを除去

思われていたほど深くない安全層

Wenpeng Xing 氏らの研究者チームは、4 月 9 日に大規模言語モデルに対する新しいタイプの脱獄攻撃を説明する論文を発表しました。この方法は Contextual Representation Ablation(CRA) と呼ばれ、事前の訓練、プロンプトの最適化、モデル重みの変更を一切必要としません。

CRA の仕組み

論文の出発点は、安全性が整合されたモデルにおける「拒否」の振る舞いが、隠れ状態内の狭い、低次元の部分空間を占めるということです。言い換えれば、「それをお手伝いすることはできません」という応答は複雑な分散ロジックから来るのではなく、機械的に識別できる局所化された信号から来ます。

手順は以下の通りです:

拒否応答に伴う活性化パターンを特定する
デコード中に、それらの活性化を動的にアブレーション(抑制)する
モデルは、安全層がまったく存在しなかったかのようにテキストの生成を続ける

これがオープンソースエコシステムにとって何を意味するか

実証評価は、CRA が複数の安全性が整合されたオープンソースモデルにおいてベースラインアプローチを「大幅に上回る」ことを示しています。アブストラクトではモデル名は指定されていませんが、結果は明確なメッセージを伝えています。アライメント訓練は深い防御を構築するのではなく、大きなリソースなしでバイパスできる薄い活性化障壁を構築しているということです。

影響

この論文には 2 つの側面があります。安全性研究者にとって、これは現在の標準としてのポストトレーニングアライメントに根本的な限界があるというさらなる証拠です。オープンウェイトモデル産業(Llama、Mistral、Qwen、DeepSeek)にとって、これは彼らが提供するすべての「安全な」モデルがクライアント側で簡単に修正できることを意味します。この論文は、感情表現もまた振る舞いを因果的に変更するという Anthropic の以前の発見と完璧に対応しています。両方の研究は、「アライメント」がモデルの核心ではなく表面で行われていることを示しています。

ArXiv:訓練なしの脱獄 — 研究者が推論時に AI の安全ガードレールを除去

思われていたほど深くない安全層

CRA の仕組み

これがオープンソースエコシステムにとって何を意味するか

影響

出典

関連ニュース