红队 (Red Team)

红队（red team） 是一种实践：由具备专业能力的测试者刻意攻击自家 AI 系统，发现系统会做出危险、未对齐或不期望行为的场景——在恶意外部攻击者或受雇记者发现之前。

该术语借自军事和网络安全领域，但 AI 红队测试有其独特性：

大型实验室（OpenAI、Anthropic、Google DeepMind）现在常规性地撰写并发布「system cards」，详细描述每个前沿模型的红队流程。欧盟 AI 法案和英国 AISI 的评测对具有系统性风险的 GPAI 强制要求红队测试。

红队是 AI 安全和对齐技术的补充而非替代——红队找不到的问题，用户或攻击者会在生产环境中找到。自 2023 年以来，专业红队公司和 bug bounty 项目已形成完整产业。

来源