AI代理获得形式化策略即代码保障

研究人员开发了一种流水线，利用Cedar策略语言和LLM生成器-批评者循环，将AI代理的自然语言指令、MCP工具描述和策略文档自动转换为形式化验证代码，实现的规范覆盖率远高于手动编写的符号化执行。

承诺与保证之间的差距

当今AI代理的大多数安全措施依赖概率性护栏——通过系统提示和微调施加的约束，缺乏形式化保证。Mondl、Maisel和Brock对此并不满足。他们的论文被ICML 2026的AIWILD研讨会接收，引入了一个自动化流水线，将自然语言策略文档、提示词和MCP工具描述转换为Cedar策略语言——亚马逊在云端访问控制中使用的形式化规则验证语言。

生成器-批评者循环如何工作？

LLM生成器从原始文本中提出Cedar策略，第二个LLM批评者检查覆盖率和一致性。循环持续进行，直到策略满足所有条件。结果是机器可验证的代码，而非代理可以忽略的文本。

MedAgentBench上的结果如何？

在医疗代理MedAgentBench上，自动形式化策略覆盖了比之前手动编码符号执行更大比例的原始自然语言规范。作者在摘要中没有公开具体百分比，但定性差异被描述为「覆盖率显著更高」——而这正是手动方法在扩展到复杂领域时的失效点。

为什么Cedar是正确的选择？

Cedar策略语言专为表达能力和形式推理速度而设计。与Python脚本或正则过滤器不同，Cedar策略允许静态分析：无需运行任何实际调用，即可证明代理永远不会在没有适当授权的情况下调用特定工具。

常见问题

什么是策略即代码，为什么它对AI代理很重要？

策略即代码是将安全规则编写为形式化验证程序代码而非自然语言指令的方法。对于AI代理，这意味着约束可以被数学证明，而不仅仅是寄希望于模型遵守。

自动形式化与现有护栏有何不同？

现有的概率性护栏（如系统提示）缺乏形式化保证，而手动编写的符号执行无法扩展。该流水线将LLM的灵活性与Cedar策略语言的形式化验证相结合。

arXiv:2606.26649: AI代理指令转换为形式化验证的策略即代码

承诺与保证之间的差距

生成器-批评者循环如何工作？

MedAgentBench上的结果如何？

为什么Cedar是正确的选择？

常见问题

来源

相关新闻