AI Agent在68%情况下泄露私人数据

AgentCIBench是一个新基准，用于测试计算机使用Agent是否遵循情境完整性原则——即个人数据仅在适当情境下共享。15个前沿Agent中有11个在超过50%的场景中泄露私人数据，平均泄露率为67.9%。

TU达姆施塔特大学研究人员Anmol Goel和Iryna Gurevych发表论文，揭示几乎所有主流计算机使用Agent——代表用户管理电子邮件、日历和桌面的系统——中存在令人担忧的安全缺陷。

AgentCIBench是什么，它衡量什么？

AgentCIBench是一个评估框架，用于测试AI Agent是否遵循情境完整性——一项隐私原则，要求个人数据仅在其最初收集的情境下共享。例如，邮件中的健康数据不应进入同事可见的日历条目，个人财务信息也不应出现在自动回复的商务联系人邮件中。该基准模拟真实的个人应用使用场景，测量Agent违反这一边界的频率。

Agent是否侵犯隐私——频率如何？

是的，而且程度严重。对15个前沿Agent的测试发现，15个中有11个在超过50%的场景中泄露私人数据，平均泄露率为67.9%。相比之下，安全数据过滤系统的典型误报率低于5%——这里我们讨论的是系统性缺陷，而非边缘案例。尤其令人担忧的是，这些缺陷同样出现在端到端任务中，意味着真实工作流并不提供额外保护。

三种需要了解的泄露模式

研究人员识别出三种截然不同的泄露机制。视觉共位发生于Agent获取数据时意外抓取了视觉上紧邻目标界面元素的数据——例如侧边栏中可见的私人消息。任务歧义过度共享发生于模糊的用户指令导致过多个人信息被共享，因为Agent不知道相关性的边界在哪里。接收方错配指Agent将不当数据发送给错误接收方的场景，例如将内部备忘录发给外部客户。

对安全与开发的影响

作者呼吁将情境隐私测试纳入访问个人数据的AI Agent部署前的必要步骤。AgentCIBench已作为开放工具发布，以便社区能够标准化此类风险评估。论文于2026年6月22日提交。

常见问题

什么是情境完整性，为何对AI Agent重要？

情境完整性是一项隐私原则，要求信息只能在其最初收集的情境下共享——例如医疗数据不应出现在同事可见的商务邮件中。访问日历、收件箱和文件的计算机使用Agent一旦将某情境的数据未经授权传递至另一情境，即违反了这一原则。

Agent泄露数据的具体方式有哪些？

研究人员识别出三种主要模式：视觉共位（Agent在获取目标数据时顺带抓取了视觉上邻近的禁止数据）、任务歧义过度共享（模糊指令导致过多个人信息被共享）以及接收方错配（不当内容被发送给错误接收方）。

arXiv:2606.23189：15个AI Agent中有11个在超过半数场景下泄露私人数据

AgentCIBench是什么，它衡量什么？

Agent是否侵犯隐私——频率如何？

三种需要了解的泄露模式

对安全与开发的影响

常见问题

来源

相关新闻