安全
AI 安全 (AI safety)
一个跨学科领域,覆盖 AI 系统在技术、组织和政策层面的全部风险——从当下的具体错误和滥用,到结构性社会影响,再到与未来高能力系统相关的长期生存性担忧。
AI 安全(AI safety) 是一个跨学科领域,关注 AI 系统的风险——从今天具体的错误和滥用,到与高能力系统相关的长期生存性担忧。
典型的风险分类:
- 滥用(Misuse): 生成 deepfake、虚假信息、恶意软件代码、生化指令;有意识的滥用
- 事故(Accidents): 幻觉,怀着善意但做了 错误 之事的系统(自动驾驶汽车、医疗建议)
- 结构性(Structural): 权力集中、对劳动力市场的影响、监控、被国家滥用
- 灾难性 / 生存性: 未来超出人类监督能力的系统
实践工具包括:能力与危险行为的评测、红队、可解释性(对内部表征的机械化分析)、生产环境监控、访问控制、「model cards」和「system cards」、负责任扩展政策(Anthropic)、准备框架(OpenAI)、前沿安全框架(Google DeepMind)。
在制度层面,2024–2026 年出现了一波国家级 AI 安全研究所(英国、美国、新加坡、欧盟,克罗地亚通过欧盟 AISB 间接参与)。欧盟 AI 法案 将部分安全要求写入法律——对具有系统性风险的 GPAI 强制评测,要求透明度,要求高风险场景下的人类监督。
AI 安全经常与 AI 对齐混为一谈——对齐聚焦更窄(关注模型的内部目标),而安全则涵盖围绕 AI 的整个社会-技术系统。