arXiv:2605.29068: COLAGUARDが安全推論を潜在空間に転送 — F1スコア+8.24、トークン数22.4分の1
COLAGUARDは大規模言語モデル向けの新しいセキュリティガードレールシステムで、カリキュラム学習を用いて安全推論を明示的なテキストの思考連鎖から連続的な潜在空間に転送します。このシステムはLlama Guard 3に対してマクロF1スコアで8.24ポイントの改善を達成しながら、8つのセキュリティデータセットでGuardReasonerベースラインと比べてトークン生成数を22.4分の1、実行速度を12.9倍高速化します。
この記事はAIにより一次情報源から生成されました。
研究者Siddharth Sai、Xiaofei Wen、Muhao ChenがCOLAGUARDを発表しました。
既存のガードレールがなぜ遅いか、または不正確なのか
Llama Guard 3などの高速システムは短い分類応答を返します。GuardReasonerなどのより精度の高いシステムは明示的な複数ステップの推論連鎖を生成しますが、計算コストが高くなります。
COLAGUARDはどのようにして推論を潜在空間に転送するか
COLAGUARD(Curriculum-based cOntinuous LAtent GUARDrail)はカリキュラム学習を用いて複数ステップの安全推論を連続潜在空間に転送します。テキストを明示的に生成せずに隠れ状態(hidden states)を伝播させます。
定量的な結果
| 指標 | 結果 |
|---|---|
| Llama Guard 3に対するマクロF1改善 | +8.24ポイント |
| GuardReasonerに対するトークン削減 | 22.4分の1 |
| GuardReasonerに対する速度向上 | 12.9倍高速 |
COLAGUARDは本番環境への適用に何をもたらすか
潜在推論は、レイテンシやコストに影響を与えずに高トラフィックを処理できるセキュリティシステムへの道を開きます。
よくある質問
- COLAGUARDはどのようにして安全推論を潜在空間に転送しますか?
- カリキュラム学習を用いて複数ステップの安全推論を連続潜在空間に転送し、テキストを明示的に生成せずに隠れ状態を伝播させます。
- COLAGUARDの定量的な成果は何ですか?
- Llama Guard 3に対してマクロF1スコア+8.24ポイント、GuardReasonerと比べてトークン数22.4分の1、速度12.9倍を達成しています。