AI 安全 (AI safety)

AI 安全（AI safety） 是一个跨学科领域，关注 AI 系统的风险——从今天具体的错误和滥用，到与高能力系统相关的长期生存性担忧。

典型的风险分类：

实践工具包括：能力与危险行为的评测、红队、可解释性（对内部表征的机械化分析）、生产环境监控、访问控制、「model cards」和「system cards」、负责任扩展政策（Anthropic）、准备框架（OpenAI）、前沿安全框架（Google DeepMind）。

在制度层面，2024–2026 年出现了一波国家级 AI 安全研究所（英国、美国、新加坡、欧盟，克罗地亚通过欧盟 AISB 间接参与）。欧盟 AI 法案将部分安全要求写入法律——对具有系统性风险的 GPAI 强制评测，要求透明度，要求高风险场景下的人类监督。

AI 安全经常与 AI 对齐混为一谈——对齐聚焦更窄（关注模型的内部目标），而安全则涵盖围绕 AI 的整个社会-技术系统。

来源