安全护栏

约束 AI 模型输入与输出的安全控制与过滤器——围绕模型部署的内容分类器、策略过滤器与攻击检测器。

安全护栏（Guardrails）是约束 AI 系统输入与输出、使其保持在允许范围内的一组控制。与通过训练嵌入模型内部的安全机制不同，护栏是一个独立的层，位于模型_之外_——介于用户与大语言模型之间。

护栏通常结合输入与输出检查：内容分类器（仇恨、暴力、自残）、个人身份信息（PII）检测、主题过滤，以及针对越狱与提示注入的检测器。任何一项检查未通过，都会在响应到达用户之前将其拦截或改写。

2025—2026 年间，护栏已成为标准化产品：Anthropic 的「宪法分类器」能过滤绝大多数越狱尝试且极少误拒，OpenAI 则提供可配置的 Guardrails 框架，内置审核、PII 与提示注入等检查。由于护栏是概率性的、可被绕过的，它是AI 安全与严格评估的补充，而非替代。

来源