可解释性 (interpretability)

一个研究领域，致力于理解 AI 模型的内部机制——特征与回路——从而解释模型为何产生特定输出，是 AI 安全的关键工具。

可解释性（interpretability）是一个研究领域，致力于理解 AI 模型为何产生特定输出，而非将其视为黑箱。机械可解释性更进一步，尝试逆向工程神经网络的内部计算——类似于阅读机器码。

其核心构件是特征（features）——激活空间中对应于人类可理解概念的方向——以及回路（circuits）——执行某项计算的特征因果链条。单个神经元通常同时编码多个概念（多义性），因此研究者使用稀疏自编码器和字典学习，将激活分解为数千个独立且可解释的特征。

该领域在 2025–2026 年备受关注：Anthropic 从 Claude 中提取了数百万个特征，包括与欺骗和偏见相关的特征，从而为监控和引导模型行为开辟了路径。可解释性正成为 AI 安全与对齐日益重要的工具——若无法洞察内部机制，便难以证明模型不会以意料之外的方式失败。

来源