🟡 🛡️ セキュリティ 公開日: · 3 分で読めます ·

HARC:有害性と拒否の方向を結合したジェイルブレーク耐性ファインチューニング手法

編集イラスト:ジェイルブレーク攻撃への防御のための有害性と拒否検出の結合HARC手法

研究者たちはジェイルブレークがモデルの内部表現レベルでなぜ成功するかを発見し、「有害性方向と拒否方向」を明示的に結合するHARCファインチューニング手法を開発した。これは6つのテスト手法の中でロバスト性・能力・使用性の最強バランスを達成している。

🤖

この記事はAIにより一次情報源から生成されました。

研究者のShei Pern ChuaとFangzhao Wuは2026年7月1日、ジェイルブレーク攻撃が大規模言語モデルの安全アラインメントを回避する正確なメカニズムを明らかにし、HARCと呼ばれる新しいファインチューニング手法の形で具体的な解決策を提案する論文を発表した。

ジェイルブレークはなぜ実際に成功するのか?

これまでの理解は主に現象論的なものだった。特定のクエリ形式がモデルを「騙して」有害なコンテンツを生成させることは分かっていたが、ネットワーク内のメカニズムは明確ではなかった。HARC研究は解釈可能性の方法論によりそのメカニズムを解明する。

アラインメントされたLLMには、内部表現の空間に(少なくとも)2つの異なる「方向」が存在する。有害性方向(コンテンツがどの程度危険かをエンコード)と拒否方向(モデルがリクエストを拒否するかどうかをエンコード)だ。重要な発見:ジェイルブレークはこの2つの方向のどちらか一方を抑制することで成功する——両方を同時に抑制する必要はない。拒否方向だけを抑制する攻撃でも、有害性方向が活性化したままでもモデルが有害なコンテンツを生成するのに十分だ。

分析はさらにレスポンス内のトークン位置にも拡張された。プロンプトだけでなく。研究者たちは、モデルがプロンプトの初期分析が問題を見逃した場合でも、コンテンツを生成中に有害性を認識できることを確認した。この発見は、入力プロンプトのレベルのみで機能するセキュリティメカニズムの設計に重要な意味を持つ。

異なるクラスのジェイルブレーク攻撃はモデルの内部空間に分離可能な有害性・拒否の平面上の領域を占める——これは攻撃がカオス的な多様性ではなく、モデルの内部空間に幾何学的な構造を持つことを意味する。

HARC:両方向を結合するファインチューニング

分析だけでなく、HARCはファインチューニングの具体的なレシピを提供する。この手法はプロンプトとレスポンスの両方の位置にわたって有害性と拒否の表現を明示的に結合する——「危険を見た」と「生成を拒否する」を独立して抑制できる次元としてではなく、共通のシグナルとしてモデルに反映させる。

結果:モデルは2つの方向のうちの1つだけをターゲットとする攻撃に耐性を持つようになる。なぜなら、それらは表現の空間で今では密接に結合されているからだ。

HARCは、安全トレーニングへの主要なアプローチをカバーする6つのベースライン手法との比較で——トレーニング時とインファレンス時の両方で——ロバスト性・能力・使用性の最強バランスを達成する。

転用可能性と実践的応用

特に重要なのはHARCが特定のアーキテクチャへの適応を必要としないことだ——この手法は2つのサイズの5つのモデルファミリーでテストされ、追加の変更なしに転用できる。これによりHARCは単なる実験室上の発見ではなく、既存のファインチューニングパイプラインへの実践的に適用可能なレシピとなる。

メカニスティックな研究角度はより広い価値も提供する。アラインメントされたLLMにおける安全性認識表現の構成を直接マッピングし、セキュリティアプリケーションとは独立してモデル解釈可能性への貴重な貢献となる。

この論文は、産業界がモデルの能力を犠牲にせずに安全性を確保する手法を積極的に模索している時期に登場した——HARCは内部表現の適切なレベルに同時に照準を当てることで両方の目標が同時に達成できることを示している。

よくある質問

HARCとは何で何に使われるか?
HARCはLLMの有害性と拒否の内部表現を明示的に結合するファインチューニング手法で、ネットワーク内の2つの「方向」のどちらか一方だけを抑制しようとするジェイルブレーク攻撃に対してモデルを耐性にする。
ジェイルブレークはどうやって安全アラインメントを回避するか?
研究はジェイルブレークがモデルの残差ストリームにおける「拒否方向」または「有害性方向」のどちらか一方を抑制することで機能することを示している——両方を同時に抑制する必要はない——これによりモデルは有害なコンテンツを生成してしまう。
HARCは何種類のモデルでテストされたか?
HARCは2つのサイズの5つの異なるモデルファミリーで評価され、この手法は特定のアーキテクチャへの適応を必要とせずモデル間で転用できる。