安全
ガードレール
AIモデルの入出力を制約する安全制御とフィルター。モデルの周囲に配置されるコンテンツ分類器、ポリシーフィルター、攻撃検出器を指す。
ガードレール(Guardrails)とは、AIシステムが許容された範囲内にとどまるよう、入力と出力を制約する制御の総称です。学習によってモデル内部に組み込まれる安全性とは異なり、ガードレールはモデルの_外側_に置かれる独立した層であり、ユーザーと大規模言語モデルの間に位置します。
通常は入力チェックと出力チェックを組み合わせます。コンテンツ分類器(憎悪・暴力・自傷)、個人を特定できる情報(PII)の検出、トピックフィルター、そしてジェイルブレイクやプロンプトインジェクションの検出器などです。いずれかのチェックに通らなければ、応答はユーザーに届く前にブロックまたは書き換えられます。
2025〜2026年にかけて、ガードレールは標準的な製品となりました。Anthropicの「Constitutional Classifiers」は誤拒否を最小限に抑えつつ大半のジェイルブレイクを遮断し、OpenAIはモデレーション・PII・プロンプトインジェクションのチェックを備えた設定可能な Guardrails フレームワークを提供しています。ガードレールは確率的で回避可能なため、AI安全性や厳密な評価を置き換えるものではなく、補完するものです。