arXiv:2605.29068 COLAGUARD：F1スコア+8.24達成

COLAGUARDは大規模言語モデル向けの新しいセキュリティガードレールシステムで、カリキュラム学習を用いて安全推論を明示的なテキストの思考連鎖から連続的な潜在空間に転送します。このシステムはLlama Guard 3に対してマクロF1スコアで8.24ポイントの改善を達成しながら、8つのセキュリティデータセットでGuardReasonerベースラインと比べてトークン生成数を22.4分の1、実行速度を12.9倍高速化します。

研究者Siddharth Sai、Xiaofei Wen、Muhao ChenがCOLAGUARDを発表しました。

既存のガードレールがなぜ遅いか、または不正確なのか

Llama Guard 3などの高速システムは短い分類応答を返します。GuardReasonerなどのより精度の高いシステムは明示的な複数ステップの推論連鎖を生成しますが、計算コストが高くなります。

COLAGUARDはどのようにして推論を潜在空間に転送するか

COLAGUARD（Curriculum-based cOntinuous LAtent GUARDrail）はカリキュラム学習を用いて複数ステップの安全推論を連続潜在空間に転送します。テキストを明示的に生成せずに隠れ状態（hidden states）を伝播させます。

定量的な結果

指標	結果
Llama Guard 3に対するマクロF1改善	+8.24ポイント
GuardReasonerに対するトークン削減	22.4分の1
GuardReasonerに対する速度向上	12.9倍高速

COLAGUARDは本番環境への適用に何をもたらすか

潜在推論は、レイテンシやコストに影響を与えずに高トラフィックを処理できるセキュリティシステムへの道を開きます。

よくある質問

COLAGUARDはどのようにして安全推論を潜在空間に転送しますか？

カリキュラム学習を用いて複数ステップの安全推論を連続潜在空間に転送し、テキストを明示的に生成せずに隠れ状態を伝播させます。

COLAGUARDの定量的な成果は何ですか？

Llama Guard 3に対してマクロF1スコア+8.24ポイント、GuardReasonerと比べてトークン数22.4分の1、速度12.9倍を達成しています。

arXiv:2605.29068: COLAGUARDが安全推論を潜在空間に転送 — F1スコア+8.24、トークン数22.4分の1

既存のガードレールがなぜ遅いか、または不正確なのか

COLAGUARDはどのようにして推論を潜在空間に転送するか

定量的な結果

COLAGUARDは本番環境への適用に何をもたらすか

よくある質問

出典

関連ニュース