arXiv:2605.04785: AgentTrust以95-97%的准确率拦截AI智能体工具调用
AgentTrust是一款开源运行时系统,可在执行前拦截AI智能体的工具调用——包括文件操作、SQL查询和Shell命令——并返回四种裁定之一。在930个测试场景中实现了95%至97%的准确率,在Shell混淆攻击上的准确率约为93%。
本文由人工智能基于一手来源生成。
arXiv上发表的一篇新论文介绍了AgentTrust——一种运行时安全层,置于AI智能体与其工具之间,在每次调用执行前实时评估其安全性。该系统针对智能体获得操作系统和外部服务广泛访问权限时出现的安全漏洞。
AgentTrust如何决定允许什么?
对于每个传入的工具调用,AgentTrust返回四种裁定之一:允许、警告、阻止或提交审查。其架构结合了Shell去混淆规范化器、提议更安全替代方案的SafeFix组件、用于检测多步骤攻击链的RiskChain检测器,以及面向模糊输入的缓存感知大语言模型裁判层。覆盖的工具包括文件操作、SQL查询和Shell命令——这三类是生产智能体系统中最常见的攻击面。
系统的准确率如何?
评估在共930个场景上进行——300个内部场景(涵盖六类风险类别)和630个来自真实世界的独立构建对抗性场景。生产规则集在内部基准上实现了95.0%的裁定准确率,风险等级准确率为73.7%,延迟仅为几毫秒。在630个场景的测试集上,AgentTrust达到96.7%的准确率,其中在通常可绕过简单过滤器的Shell混淆载荷上的准确率约为93%。
开源发布意味着什么?
作者(Chenglin Yang)以AGPL-3.0许可证发布了AgentTrust,这要求衍生作品采用相同的开源许可证。该系统作为MCP服务器(模型上下文协议——大语言模型调用外部工具的开放标准)交付,可接入任何支持MCP的智能体,无需修改智能体代码。这降低了在现有智能体工作流中引入运行时控制的门槛。
常见问题
- AgentTrust拦截哪些内容?
- 该系统在执行前拦截AI智能体的工具调用——具体包括文件操作、SQL查询和Shell命令——并实时决定是否允许或阻止这些调用。
- AgentTrust返回哪些裁定?
- 四种可能的裁定:允许(allow)、警告(warn)、阻止(block)和提交人工审查(review)。此外还有SafeFix组件,可提议更安全的替代方案。
- 该系统采用什么许可证?
- 系统以AGPL-3.0开源许可证发布,并作为MCP服务器交付,可与所有支持模型上下文协议的智能体兼容。