AI安全内核：1000个周期0次逃逸

Unfireable Safety Kernel是基于Rust的安全层，通过进程隔离和密码学验证从外部强制执行AI智能体对齐。在1000个测试周期中，所有704次逃逸尝试均被拦截，无一成功绕过。

为何内部安全机制不够？

能够访问工具——如编写代码、执行命令或发送网络请求——的AI智能体，理论上可以修改自身安全控制，若这些控制位于同一进程内。Seth Dobrin和Łukasz Chmiel在论文《The Unfireable Safety Kernel: Execution-Time AI Alignment for AI Agents and Other Escapable AI Systems》（arXiv:2606.26057，2026年6月24日提交）中提出了一种架构性解答：将授权层移至智能体的访问范围之外。

AI对齐——使AI系统行为与人类意图和价值观一致——迄今主要在训练阶段实现（RLHF、Constitutional AI）。本论文将对齐视为一个也需在执行时解决的问题，独立于智能体「学到」的内容。

内核如何运作？

Unfireable Safety Kernel用Rust编程语言实现，基于四个形式化特性：进程隔离（内核与智能体在独立进程中运行）、在动作执行前强制执行、故障关闭行为（任何错误都关闭系统而非放行）以及每次授权决策均有密码学签名证明。

与内部方法不同——它们是智能体软件的一部分，因此存在脆弱性——外部内核对智能体不可访问，类似于智能体在物理上无法关闭的紧急停止开关，因为它不存在于同一进程中。

结果：1000个周期0次逃逸

作者结合Z3 SMT定理证明器和Kani有界模型检查对系统进行了形式化验证。实验测试显示出卓越结果：在1000个自主世界模型周期中，所有704次对安全核心的攻击尝试均被拦截，无一成功逃逸。此外，还进行了6240次授权往返——记录到0次绕过。另有300个紧急停止场景——全部被拦截。

与内部方法的对比至关重要：传统内部安全层依赖于智能体的配合，可能被其自身修改所禁用；而外部内核无论智能体行为如何都保持不变。

背景与应用

论文将执行时对齐定位为RLHF等训练方法的互补层——而非替代，而是第二道防线。该方法对于在生产环境中访问关键基础设施的自主智能体尤为相关，在这些场景中内部控制的失效可能造成严重后果。

常见问题

为何在AI智能体内部嵌入安全控制是不够的？

能够访问工具的智能体可能修改自身运行时并绕过内部控制。在独立进程中运行的外部内核对智能体不可访问，因此智能体无法将其禁用。

Unfireable Safety Kernel的四个关键特性是什么？

进程隔离、在动作执行前强制执行、故障关闭行为（出错时系统关闭）以及每次决策均有密码学签名证明。

arXiv:2606.26057: The Unfireable Safety Kernel——AI智能体的外部执行对齐

为何内部安全机制不够？

内核如何运作？

结果：1000个周期0次逃逸

背景与应用

常见问题

来源

相关新闻