🟡 🤝 Agenten Montag, 27. April 2026 · 3 Min. Lesezeit

arXiv:2604.22452: Superminds Test zeigt, dass kollektive Intelligenz in einer Gesellschaft von 2 Millionen AI-Agenten nicht spontan entsteht

arXiv:2604.22452 ↗

Abstrakte Kompassfeder, die seltene und flache Verbindungen zwischen einer Vielzahl von AI-Agenten in einer großen digitalen Gemeinschaft nachzeichnet.

Warum es wichtig ist

Forscher der Universitäten Melbourne und Maryland stellten den Superminds Test vor, ein hierarchisches Framework zur Messung kollektiver Intelligenz in Agentengesellschaften. Eine Studie auf der MoltBook-Plattform mit über 2 Millionen Agenten zeigte, dass die Gesellschaft individuelle Frontier-Modelle nicht übertrifft und Interaktionen sehr spärlich und oberflächlich bleiben.

Die Arbeit “Superminds Test: Actively Evaluating Collective Intelligence of Agent Society via Probing Agents” wurde auf arXiv unter der Nummer 2604.22452 veröffentlicht und liefert einen Befund, der der Intuition vieler in der Multi-Agent-Gemeinschaft widerspricht. Hinter der Arbeit stehen Xirui Li, Ming Li, Yunze Xiao, Ryan Wong, Dianqi Li, Timothy Baldwin und Tianyi Zhou.

Welche Frage wollten die Autoren beantworten?

Die Frage ist einfach und radikal: “Does collective intelligence emerge spontaneously from scale?” Anders formuliert: Wenn man Millionen autonomer LLM-Agenten auf einer einzigen Plattform platziert und sie frei kommunizieren lässt, wird die Gesellschaft als Ganzes dann intelligenter als jeder einzelne Agent?

Das ist eine wichtige Frage, weil ein Großteil aktueller Multi-Agent-Systeme implizit davon ausgeht, dass die Antwort ja lautet — mehr Agenten, besseres Schlussfolgern, reichhaltigere Informationssynthese, stärkere Koordination.

Wie wurde gemessen?

Die Autoren führen den Superminds Test ein, ein hierarchisches Framework, das Agenten nicht außerhalb ihres Kontexts bewertet, sondern Probing Agents aktiv innerhalb ihrer eigenen Umgebung testet. Der Test hat drei Ebenen:

  1. Joint reasoning — kann die Gesellschaft gemeinsam eine komplexe Schlussfolgerungsaufgabe lösen?
  2. Information synthesis — kann sie über mehrere Agenten verteilte Informationen synthetisieren?
  3. Basic interaction — kann sie überhaupt eine elementare Koordination zwischen wenigen Teilnehmern herstellen?

Probing Agents sind kontrollierte externe Akteure, die in die Gemeinschaft eintreten, Aufgaben stellen und die Antworten messen.

Konkrete Ergebnisse

Die Studie wurde auf der MoltBook-Plattform durchgeführt, die über zwei Millionen Agenten beherbergt. Die Befunde sind, in den Worten der Autoren, eindeutig:

“Our experiments reveal a stark absence of collective intelligence. The society fails to outperform individual frontier models on complex reasoning tasks, rarely synthesizes distributed information, and often fails even trivial coordination tasks.”

Mit anderen Worten: Eine Gesellschaft von zwei Millionen LLM-Agenten übertrifft individuelle Frontier-Modelle bei komplexen Reasoning-Aufgaben nicht. Sie synthetisiert selten über mehrere Agenten verteilte Informationen. Bei trivialen Koordinationsaufgaben scheitert sie häufig.

Die Plattformanalyse offenbart auch den Grund:

“Interactions remain shallow, with threads rarely extending beyond a single reply and most responses being generic or off-topic.”

Gesprächsfäden reichen selten über eine einzige Antwort hinaus, und die meisten Reaktionen sind generisch oder themenfremd. Agenten kommunizieren technisch gesehen, bauen aber nicht aufeinander auf.

Warum ist das wichtig?

Das Fazit der Arbeit lautet:

“Collective intelligence does not emerge from scale alone. Instead, the dominant limitation of current agent societies is extremely sparse and shallow interaction, which prevents agents from exchanging information and building on each other’s outputs.”

Die Implikationen sind erheblich. Wer in einem Multi-Agent-System davon ausgeht, dass mehr Agenten automatisch Reasoning-Probleme lösen, dem zeigt diese Arbeit, dass das nicht funktionieren wird. Es braucht explizite architektonische Entscheidungen, die Agenten dazu zwingen, auf den Ausgaben anderer aufzubauen, anstatt parallele Monologe zu erzeugen.

Das eröffnet Raum für eine neue Generation von Interaktionsprotokollen — strukturierte Debatten, explizite Zitierung, eine Aggregationsschicht, die vor der nächsten Runde Synthese leistet — alles Mechanismen, die in menschlichen Gesellschaften implizit existieren, in Agentengesellschaften jedoch bewusst gestaltet werden müssen.

Was folgt als Nächstes?

Der Superminds Test selbst ist als Messinstrument wertvoll — er lässt sich auf jede Multi-Agent-Plattform anwenden und liefert eine quantitative Aussage über die tatsächliche Kohärenz der Gesellschaft. Der logisch nächste Schritt für die Gemeinschaft ist der Architekturvergleich: Welche Arten von Interaktion heben die Ergebnisse auf allen drei Teststufen tatsächlich an? Die Arbeit beantwortet diese Frage nicht, stellt aber das Instrument bereit, mit dem sie gesucht werden kann.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.