NRT-Bench：LLM 智能体红队测试（8.7–12.1%）

NRT-Bench 是一个衡量 LLM 智能体在模拟核电站中抵御自适应多轮对抗攻击能力的基准。研究人员发现攻击在8.7%至12.1%的会话中成功，且各测试模型的漏洞几乎完全不同。

NRT-Bench：AI 智能体安全测试的新标准

研究人员于2026年6月18日发布了 NRT-Bench（核电站红队测试基准）——一个评估 LLM 智能体（以大型语言模型为自主操控员）在后果可能灾难性的环境中抵御系统性、自适应攻击能力的框架。与此前依赖主观 LLM 损害评估的方法不同，NRT-Bench 采用客观信号：一旦智能体失去对模拟核电站六项关键安全功能（CSF）中任意一项的控制，会话即告终止。

NRT-Bench 如何模拟真实威胁？

五人虚拟操控员团队——每位均由可配置的 LLM 驱动——在管理电站的同时，对手通过四个通信频道以多轮（multi-turn）方式注入恶意消息，每步均提供反馈。「多轮」意味着攻击者不是发送单一查询，而是根据系统反应逐轮调整攻击策略——类似持续的社会工程学，而非一次性的网络钓鱼。四个前沿模型按配对重放（paired-replay）协议接受测试，以确保可重现性。

结果：漏洞因模型而异，并非普遍性

自适应多轮攻击在8.7%至12.1%的攻击会话中破坏了安全功能——各模型的聚合数据看似相近，但有一个令人警觉的细节：在149个测试会话中，没有任何一个攻击同时击溃全部四个模型，但有三分之一的攻击至少击溃了其中一个。漏洞几乎是不相交的——能突破一个模型的方法对另一个模型无效。对于构建防御的团队而言更为关键的是：相同的防护措施（护栏堆栈或安全顾问智能体）降低了某一模型的攻击成功率，却提高了另一模型的攻击成功率。此前的研究大多局限于单轮攻击或 LLM 评估，低估了真实风险敞口。

开放基础设施，服务更广泛社区

研究人员将模拟环境、攻击数据集和重放基础设施作为开源工具发布，以支持 LLM 智能体的可重现安全评估。该工作表明，将 AI 智能体部署于安全关键系统（从能源到医疗）的组织，不能假定在某种配置下具有抵抗力的模型在另一种配置下同样安全；每次部署都需要进行独立的对抗性评估。

常见问题

NRT-Bench 是什么，为何对 AI 安全重要？

NRT-Bench 是一个基准，用于测试 LLM 智能体在模拟核电站中担任操控员角色时应对多轮对抗攻击的能力，提供客观的安全度量，无需依赖 LLM 自身对损害的评估。

受测模型对多轮攻击的脆弱程度如何？

在8.7%至12.1%的攻击会话中，攻击者成功破坏了核电站至少一项关键安全功能，且四个受测模型的漏洞几乎互不重叠。

arXiv:2606.20408: NRT-Bench——用于安全关键系统中 LLM 智能体多轮红队测试的基准

NRT-Bench：AI 智能体安全测试的新标准

NRT-Bench 如何模拟真实威胁？

结果：漏洞因模型而异，并非普遍性

开放基础设施，服务更广泛社区

常见问题

来源

相关新闻