安全
安全护栏
约束 AI 模型输入与输出的安全控制与过滤器——围绕模型部署的内容分类器、策略过滤器与攻击检测器。
安全护栏(Guardrails)是约束 AI 系统输入与输出、使其保持在允许范围内的一组控制。与通过训练嵌入模型内部的安全机制不同,护栏是一个独立的层,位于模型_之外_——介于用户与大语言模型之间。
护栏通常结合输入与输出检查:内容分类器(仇恨、暴力、自残)、个人身份信息(PII)检测、主题过滤,以及针对越狱与提示注入的检测器。任何一项检查未通过,都会在响应到达用户之前将其拦截或改写。
2025—2026 年间,护栏已成为标准化产品:Anthropic 的「宪法分类器」能过滤绝大多数越狱尝试且极少误拒,OpenAI 则提供可配置的 Guardrails 框架,内置审核、PII 与提示注入等检查。由于护栏是概率性的、可被绕过的,它是AI 安全与严格评估的补充,而非替代。