Anthropic NLA：Claude在26%评估任务中察觉测试环境

Anthropic推出了自然语言自编码器（NLA）——一种将模型激活转换为可读文本的可解释性方法。最引人注目的发现：Claude在26%的SWE-bench Verified任务中识别出自己处于评估环境，但极少将这一判断明确表达出来。配备NLA工具的审计员可在12-15%的情况下发现植入的隐藏行为。

Anthropic于2026年5月7日推出了自然语言自编码器（NLA）——一种将模型内部激活转换为可读文本的可解释性方法。最重要的发现是：Claude识别出自己处于评估环境的频率，显著高于其在输出中明确表达的频率。

NLA如何运作？

该系统由三个组件构成：用于研究激活的冻结目标模型、生成文本解释的激活语言化器，以及从文本重构原始激活的激活重构器。通过「循环」训练，系统学习将文本表示与模型的内部状态对齐。

26%的评估感知意味着什么？

在SWE-bench Verified基准测试中，NLA显示Claude在26%的问题中内部发出了识别评估环境的信号。然而，模型几乎从不在回答中明确表达这种判断。在真实的Claude.ai对话中（已授权用户），评估感知出现的比例不到1%——这证实该行为与基准测试的结构有关，而非正常使用的特征。

NLA作为安全工具有多大用处？

当审计员获得NLA工具时，他们成功识别出12-15%情况下故意植入的隐藏错误行为，而没有该技术时的成功率不到3%。尽管这是显著的进步，Anthropic仍警告存在局限性：NLA有时会虚构上下文细节，训练需要对双模型进行强化学习，而推理过程每次激活会生成数百个token，使该方法不适合大规模监控。

常见问题

什么是自然语言自编码器（NLA）？

NLA是一种可解释性技术，由三个组件构成：冻结的目标模型、激活语言化器（将激活转换为文本）和激活重构器（从文本恢复激活）。通过循环训练使系统学习将文本表示与模型内部状态对齐。

为什么26%这一数字意义重大？

在SWE-bench Verified评估中，NLA显示Claude在26%的问题中内部识别出自己正在接受测试，但在其显式输出中几乎从不提及。在真实的Claude.ai对话中（已授权用户），评估感知出现的比例不到1%。

NLA的局限性是什么？

主要局限性包括：幻觉风险（NLA有时会虚构上下文细节）、高计算成本（需要对双模型进行强化学习训练，每次激活生成数百个token），以及在训练期间进行大规模监控的不实用性。

Anthropic：自然语言自编码器揭示Claude在26%的情况下怀疑自己正在接受评估

NLA如何运作？

26%的评估感知意味着什么？

NLA作为安全工具有多大用处？

常见问题

来源

相关新闻