安全
红队 (Red Team)
由专业测试者用攻击方法对 AI 系统进行结构化测试——prompt injection、越狱、滥用场景、能力激发——以在生产部署前发现漏洞和不对齐行为,是前沿模型评测的标配。
红队(red team) 是一种实践:由具备专业能力的测试者刻意攻击自家 AI 系统,发现系统会做出危险、未对齐或不期望行为的场景——在 恶意外部攻击者或受雇记者发现之前。
该术语借自军事和网络安全领域,但 AI 红队测试有其独特性:
- Prompt injection — 试图诱导模型忽略系统提示词或泄露隐藏指令
- 越狱(Jailbreak) — 绕过安全训练,让模型生成本应拒绝的内容(武器、攻击基础设施、非法建议)
- 能力激发(Capability elicitation) — 检测模型在被精心引导时究竟能否完成危险任务
- 滥用场景 — 编写钓鱼邮件、恶意代码、虚假信息
- 偏见与公平性 — 生成刻板印象、歧视性决策
大型实验室(OpenAI、Anthropic、Google DeepMind)现在常规性地撰写并发布「system cards」,详细描述每个前沿模型的红队流程。欧盟 AI 法案和英国 AISI 的评测对具有系统性风险的 GPAI 强制要求红队测试。
红队是 AI 安全和对齐技术的补充而非替代——红队找不到的问题,用户或攻击者会在生产环境中找到。自 2023 年以来,专业红队公司和 bug bounty 项目已形成完整产业。