安全

红队 (Red Team)

由专业测试者用攻击方法对 AI 系统进行结构化测试——prompt injection、越狱、滥用场景、能力激发——以在生产部署前发现漏洞和不对齐行为,是前沿模型评测的标配。

红队(red team 是一种实践:由具备专业能力的测试者刻意攻击自家 AI 系统,发现系统会做出危险、未对齐或不期望行为的场景—— 恶意外部攻击者或受雇记者发现之前。

该术语借自军事和网络安全领域,但 AI 红队测试有其独特性:

  • Prompt injection — 试图诱导模型忽略系统提示词或泄露隐藏指令
  • 越狱(Jailbreak) — 绕过安全训练,让模型生成本应拒绝的内容(武器、攻击基础设施、非法建议)
  • 能力激发(Capability elicitation) — 检测模型在被精心引导时究竟能否完成危险任务
  • 滥用场景 — 编写钓鱼邮件、恶意代码、虚假信息
  • 偏见与公平性 — 生成刻板印象、歧视性决策

大型实验室(OpenAI、Anthropic、Google DeepMind)现在常规性地撰写并发布「system cards」,详细描述每个前沿模型的红队流程。欧盟 AI 法案和英国 AISI 的评测对具有系统性风险的 GPAI 强制要求红队测试。

红队是 AI 安全对齐技术的补充而非替代——红队找不到的问题,用户或攻击者会在生产环境中找到。自 2023 年以来,专业红队公司和 bug bounty 项目已形成完整产业。

来源

另见