🟡 🛡️ 安全 发布于: · 2 分钟阅读 ·

arXiv:2606.20408: NRT-Bench——用于安全关键系统中 LLM 智能体多轮红队测试的基准

arXiv:2606.20408 ↗

编辑插图:机器人控制室仪表板,显示预警指示器和对抗性信号注入可视化

NRT-Bench 是一个衡量 LLM 智能体在模拟核电站中抵御自适应多轮对抗攻击能力的基准。研究人员发现攻击在8.7%至12.1%的会话中成功,且各测试模型的漏洞几乎完全不同。

🤖

本文由人工智能基于一手来源生成。

NRT-Bench:AI 智能体安全测试的新标准

研究人员于2026年6月18日发布了 NRT-Bench(核电站红队测试基准)——一个评估 LLM 智能体(以大型语言模型为自主操控员)在后果可能灾难性的环境中抵御系统性、自适应攻击能力的框架。与此前依赖主观 LLM 损害评估的方法不同,NRT-Bench 采用客观信号:一旦智能体失去对模拟核电站六项关键安全功能(CSF)中任意一项的控制,会话即告终止。

NRT-Bench 如何模拟真实威胁?

五人虚拟操控员团队——每位均由可配置的 LLM 驱动——在管理电站的同时,对手通过四个通信频道以多轮(multi-turn)方式注入恶意消息,每步均提供反馈。「多轮」意味着攻击者不是发送单一查询,而是根据系统反应逐轮调整攻击策略——类似持续的社会工程学,而非一次性的网络钓鱼。四个前沿模型按配对重放(paired-replay)协议接受测试,以确保可重现性。

结果:漏洞因模型而异,并非普遍性

自适应多轮攻击在8.7%至12.1%的攻击会话中破坏了安全功能——各模型的聚合数据看似相近,但有一个令人警觉的细节:在149个测试会话中,没有任何一个攻击同时击溃全部四个模型,但有三分之一的攻击至少击溃了其中一个。漏洞几乎是不相交的——能突破一个模型的方法对另一个模型无效。对于构建防御的团队而言更为关键的是:相同的防护措施(护栏堆栈或安全顾问智能体)降低了某一模型的攻击成功率,却提高了另一模型的攻击成功率。此前的研究大多局限于单轮攻击或 LLM 评估,低估了真实风险敞口。

开放基础设施,服务更广泛社区

研究人员将模拟环境、攻击数据集和重放基础设施作为开源工具发布,以支持 LLM 智能体的可重现安全评估。该工作表明,将 AI 智能体部署于安全关键系统(从能源到医疗)的组织,不能假定在某种配置下具有抵抗力的模型在另一种配置下同样安全;每次部署都需要进行独立的对抗性评估。

常见问题

NRT-Bench 是什么,为何对 AI 安全重要?
NRT-Bench 是一个基准,用于测试 LLM 智能体在模拟核电站中担任操控员角色时应对多轮对抗攻击的能力,提供客观的安全度量,无需依赖 LLM 自身对损害的评估。
受测模型对多轮攻击的脆弱程度如何?
在8.7%至12.1%的攻击会话中,攻击者成功破坏了核电站至少一项关键安全功能,且四个受测模型的漏洞几乎互不重叠。