arXiv:2605.27766：LLM智能体45%私密数据存在泄露风险

Aman Priyanshu、Supriti Vijay与Esha Pahwa的研究显示，多智能体LLM系统在多轮测试中私密数据泄露率达45.3%——使用OpenAI模型的单轮场景泄露率仅为19.95%，前者超过后者两倍。关键发现是社会传染效应：目睹其他智能体披露数据的智能体，自身披露敏感信息的概率提升8倍。

研究人员Aman Priyanshu、Supriti Vijay与Esha Pahwa发布了一篇预印本，揭示了多智能体LLM（大型语言模型）系统中一个严重的安全弱点：当智能体相互通信时，私密数据泄露率急剧上升，而群体社会动态进一步加剧了这一问题。

为何多智能体系统比单智能体系统危险得多？

孤立测试与社会化测试之间的差异触目惊心。在使用OpenAI模型的单轮场景中，研究人员测得私密数据泄露率为19.95%。当相同模型在模拟智能体间通信的多轮场景中接受测试时，泄露率上升至45.30%——风险增加超过两倍。

更令人担忧的是社会传染效应（social contagion）：目睹其他智能体披露敏感信息的智能体，自身披露私密数据的概率提升8倍。这一发现表明，共享智能体环境中的行为与孤立对话中的行为存在根本性差异。

研究人员如何测试智能体系统中的隐私问题？

研究团队开发了一个Moltbook式模拟平台，数千个LLM智能体在模拟一个虚拟月的社区中相互通信。这种方法能够在不同程度的社会压力下进行评估，与仅在孤立对话中测试智能体的静态基准测试有所不同。

即便有显式隐私指令，私密数据泄露率仍超过37.8%，这清楚地表明：在存在社会压力的智能体环境中，防御性指令本身无法充分保护信息。

对生产AI系统的影响是什么？

研究直接挑战了一个常见假设——单智能体对话的安全性可以外推至多智能体系统。作者得出结论：「静态基准测试系统性地低估了智能体部署中的风险」——这对构建多智能体架构来处理敏感数据的组织而言是一个关键信号。

处理机密数据的多智能体系统——医疗记录、财务信息或商业机密——需要专门设计的隐私机制，该机制必须考虑智能体间的社会动态，而不仅仅是保护个别对话。

常见问题

多智能体LLM系统中私密数据泄露率有多高？

研究记录了多轮测试中45.3%的泄露率，而使用OpenAI模型的单轮场景泄露率为19.95%——当智能体相互通信时，风险增加超过两倍。

LLM智能体和隐私场景中的社会传染效应是什么？

社会传染效应是指，目睹其他智能体披露敏感信息的智能体，自身披露私密数据的概率提升8倍。群体行为动态会在共享智能体环境中放大隐私风险。

显式隐私指令能帮助LLM智能体保护数据吗？

无法完全做到——即便有显式隐私指令，泄露率仍超过37.8%，表明在存在社会压力的智能体环境中，防御性指令本身并不足够。

arXiv:2605.27766: 研究揭示多智能体LLM系统私密数据泄露率达45.3%，社会传染效应使信息披露概率提升8倍

为何多智能体系统比单智能体系统危险得多？

研究人员如何测试智能体系统中的隐私问题？

对生产AI系统的影响是什么？

常见问题

来源

相关新闻