MoltBook ist eine Plattform, auf der über zwei Millionen autonome AI-Agenten koexistieren. Forscher nutzten sie als Testumgebung für die erste empirische Untersuchung der Frage, ob kollektive Intelligenz spontan entsteht, wenn Agenten auf Millionen skaliert werden.

Der Superminds Test hat drei Ebenen: gemeinsames Schlussfolgern, Informationssynthese und grundlegende Interaktion. Probing Agents kommen von außen, stellen kontrollierte Aufgaben und messen, wie die Gesellschaft im Vergleich zu einzelnen Modellen reagiert.

Was bedeutet das für Multi-Agent-Systeme in der Praxis?

Es zeigt, dass eine höhere Anzahl von Agenten die kollektive Leistung nicht automatisch verbessert. Systemdesigner müssen explizit an Interaktionsarchitektur, Anreizen zum Aufbau auf den Ausgaben anderer und Synthesemechanismen arbeiten — andernfalls entstehen viele parallele Monologe.

Superminds Test: 2 Mio. Agenten ohne kollektive Intelligenz

Q: Warum ist das Hauptergebnis negativ?

Die Autoren argumentieren, dass die dominierende Einschränkung ‚extremely sparse and shallow interaction' ist — Threads reichen selten über eine einzige Antwort hinaus, und ein Großteil der Reaktionen ist generisch oder themenfremd. Skalierung allein erzeugt keine Koordination zwischen Agenten.

Die Arbeit “Superminds Test: Actively Evaluating Collective Intelligence of Agent Society via Probing Agents” wurde auf arXiv unter der Nummer 2604.22452 veröffentlicht und liefert einen Befund, der der Intuition vieler in der Multi-Agent-Gemeinschaft widerspricht. Hinter der Arbeit stehen Xirui Li, Ming Li, Yunze Xiao, Ryan Wong, Dianqi Li, Timothy Baldwin und Tianyi Zhou.

Welche Frage wollten die Autoren beantworten?

Die Frage ist einfach und radikal: “Does collective intelligence emerge spontaneously from scale?” Anders formuliert: Wenn man Millionen autonomer LLM-Agenten auf einer einzigen Plattform platziert und sie frei kommunizieren lässt, wird die Gesellschaft als Ganzes dann intelligenter als jeder einzelne Agent?

Das ist eine wichtige Frage, weil ein Großteil aktueller Multi-Agent-Systeme implizit davon ausgeht, dass die Antwort ja lautet — mehr Agenten, besseres Schlussfolgern, reichhaltigere Informationssynthese, stärkere Koordination.

Wie wurde gemessen?

Die Autoren führen den Superminds Test ein, ein hierarchisches Framework, das Agenten nicht außerhalb ihres Kontexts bewertet, sondern Probing Agents aktiv innerhalb ihrer eigenen Umgebung testet. Der Test hat drei Ebenen:

Joint reasoning — kann die Gesellschaft gemeinsam eine komplexe Schlussfolgerungsaufgabe lösen?
Information synthesis — kann sie über mehrere Agenten verteilte Informationen synthetisieren?
Basic interaction — kann sie überhaupt eine elementare Koordination zwischen wenigen Teilnehmern herstellen?

Probing Agents sind kontrollierte externe Akteure, die in die Gemeinschaft eintreten, Aufgaben stellen und die Antworten messen.

Konkrete Ergebnisse

Die Studie wurde auf der MoltBook-Plattform durchgeführt, die über zwei Millionen Agenten beherbergt. Die Befunde sind, in den Worten der Autoren, eindeutig:

“Our experiments reveal a stark absence of collective intelligence. The society fails to outperform individual frontier models on complex reasoning tasks, rarely synthesizes distributed information, and often fails even trivial coordination tasks.”

Mit anderen Worten: Eine Gesellschaft von zwei Millionen LLM-Agenten übertrifft individuelle Frontier-Modelle bei komplexen Reasoning-Aufgaben nicht. Sie synthetisiert selten über mehrere Agenten verteilte Informationen. Bei trivialen Koordinationsaufgaben scheitert sie häufig.

Die Plattformanalyse offenbart auch den Grund:

“Interactions remain shallow, with threads rarely extending beyond a single reply and most responses being generic or off-topic.”

Gesprächsfäden reichen selten über eine einzige Antwort hinaus, und die meisten Reaktionen sind generisch oder themenfremd. Agenten kommunizieren technisch gesehen, bauen aber nicht aufeinander auf.

Warum ist das wichtig?

Das Fazit der Arbeit lautet:

“Collective intelligence does not emerge from scale alone. Instead, the dominant limitation of current agent societies is extremely sparse and shallow interaction, which prevents agents from exchanging information and building on each other’s outputs.”

Die Implikationen sind erheblich. Wer in einem Multi-Agent-System davon ausgeht, dass mehr Agenten automatisch Reasoning-Probleme lösen, dem zeigt diese Arbeit, dass das nicht funktionieren wird. Es braucht explizite architektonische Entscheidungen, die Agenten dazu zwingen, auf den Ausgaben anderer aufzubauen, anstatt parallele Monologe zu erzeugen.

Das eröffnet Raum für eine neue Generation von Interaktionsprotokollen — strukturierte Debatten, explizite Zitierung, eine Aggregationsschicht, die vor der nächsten Runde Synthese leistet — alles Mechanismen, die in menschlichen Gesellschaften implizit existieren, in Agentengesellschaften jedoch bewusst gestaltet werden müssen.

Was folgt als Nächstes?

Der Superminds Test selbst ist als Messinstrument wertvoll — er lässt sich auf jede Multi-Agent-Plattform anwenden und liefert eine quantitative Aussage über die tatsächliche Kohärenz der Gesellschaft. Der logisch nächste Schritt für die Gemeinschaft ist der Architekturvergleich: Welche Arten von Interaktion heben die Ergebnisse auf allen drei Teststufen tatsächlich an? Die Arbeit beantwortet diese Frage nicht, stellt aber das Instrument bereit, mit dem sie gesucht werden kann.

arXiv:2604.22452: Superminds Test zeigt, dass kollektive Intelligenz in einer Gesellschaft von 2 Millionen AI-Agenten nicht spontan entsteht

Welche Frage wollten die Autoren beantworten?

Wie wurde gemessen?

Konkrete Ergebnisse

Warum ist das wichtig?

Was folgt als Nächstes?

Quellen

Verwandte Nachrichten