🟡 🤝 智能体 2026年4月27日星期一 · 2 分钟阅读

arXiv:2604.22452:超级思维测试揭示——200万AI智能体构成的社会中,集体智能并不会自然涌现

arXiv:2604.22452 ↗

抽象的指南针羽毛笔追踪大型数字社区中众多AI智能体之间稀疏而浅层的连接。

为什么重要

墨尔本大学与马里兰大学的研究人员提出了超级思维测试(Superminds Test)——一个用于探测智能体社会集体智能的层级化框架。在拥有逾200万智能体的MoltBook平台上进行的研究表明,该社会的表现未能超越单个前沿模型,且交互极为稀疏与浅层。

论文**《Superminds Test: Actively Evaluating Collective Intelligence of Agent Society via Probing Agents》发布于arXiv,编号2604.22452,其发现与多智能体领域众多研究者的直觉相悖。论文作者为Xirui Li**、Ming LiYunze XiaoRyan WongDianqi LiTimothy BaldwinTianyi Zhou

作者试图回答什么问题?

问题直接而根本:「集体智能能否从规模中自发涌现?」 换言之,若将数百万自主LLM智能体置于同一平台,让其自由交流,整个社会作为整体是否会变得比任何单个智能体都更智慧?

这是一个重要问题,因为大量近期多智能体系统都隐含着肯定的假设——更多智能体带来更好的推理、更丰富的信息综合与更强的协调能力。

如何进行测量?

作者提出了超级思维测试(Superminds Test)——一个层级化框架,不在脱离情境的条件下测试智能体,而是让探测智能体在其真实所处环境中主动加以测试。测试分为三个层级:

  1. 联合推理 — 社会能否共同解决复杂推理任务?
  2. 信息综合 — 社会能否综合分散于多个智能体之间的信息?
  3. 基础交互 — 社会能否完成多个参与者之间最基本的协调?

探测智能体是受控的外部实体,进入社区后设定任务并衡量响应结果。

具体结果

研究在托管逾200万智能体MoltBook平台上进行。作者形容研究发现「触目惊心」:

“Our experiments reveal a stark absence of collective intelligence. The society fails to outperform individual frontier models on complex reasoning tasks, rarely synthesizes distributed information, and often fails even trivial coordination tasks.”

换言之,拥有200万LLM智能体的社会在复杂推理任务上未能超越单个前沿模型,极少综合分散于多个智能体之间的信息,甚至在平凡的协调任务中屡屡失败。

平台分析同时揭示了原因:

“Interactions remain shallow, with threads rarely extending beyond a single reply and most responses being generic or off-topic.”

对话线程极少延伸至超过一次回复,大部分响应流于泛泛或偏离主题。智能体在技术层面虽有通信,却并未在彼此的输出上继续推进。

为何重要?

论文结论如下:

“Collective intelligence does not emerge from scale alone. Instead, the dominant limitation of current agent societies is extremely sparse and shallow interaction, which prevents agents from exchanging information and building on each other’s outputs.”

这一结论影响深远。若多智能体系统的设计以「更多智能体能自动解决推理问题」为前提,本文的研究表明此路不通。需要明确的架构决策来强制要求智能体在彼此的输出上继续推进,而非各自生成平行独白。

这为新一代交互协议开辟了空间:结构化辩论、显式引用、在下一轮之前执行综合的聚合层——这些机制在人类社会中隐性存在,在智能体社会中则必须经过设计。

下一步是什么?

超级思维测试本身作为度量工具具有重要价值——可应用于任意多智能体平台,对社会的真实凝聚力给出量化回答。对于学界而言,下一个合理步骤是比较不同架构:哪类交互方式真正能在测试的三个层级上全面提升表现?论文未给出答案,但提供了探索所需的工具。

🤖

本文由人工智能基于一手来源生成。