安全

可解释性 (interpretability)

一个研究领域,致力于理解 AI 模型的内部机制——特征与回路——从而解释模型为何产生特定输出,是 AI 安全的关键工具。

可解释性interpretability)是一个研究领域,致力于理解 AI 模型为何产生特定输出,而非将其视为黑箱。机械可解释性更进一步,尝试逆向工程神经网络的内部计算——类似于阅读机器码。

其核心构件是特征features)——激活空间中对应于人类可理解概念的方向——以及回路circuits)——执行某项计算的特征因果链条。单个神经元通常同时编码多个概念(多义性),因此研究者使用稀疏自编码器和字典学习,将激活分解为数千个独立且可解释的特征。

该领域在 2025–2026 年备受关注:Anthropic 从 Claude 中提取了数百万个特征,包括与欺骗和偏见相关的特征,从而为监控和引导模型行为开辟了路径。可解释性正成为 AI 安全对齐日益重要的工具——若无法洞察内部机制,便难以证明模型不会以意料之外的方式失败。

来源

另见