arXiv:2605.10344: TMAS Multi-Agenten-Reasoning-Rekord

TMAS (Test-time Multi-Agent Scaling) ist ein neuer Ansatz für Test-Time-Compute-Scaling, der LLM-Inferenz als Kollaboration zwischen spezialisierten Agenten mit hierarchischen Gedächtnisbanken organisiert. Die Autoren (UC Berkeley + DeepMind) zeigen, dass alle bestehenden Baseline-Methoden (Best-of-N, MCTS, AutoTTS) auf MATH-500, AIME 2024, HumanEval und GPQA Diamond beim gleichen Compute-Budget übertroffen werden. Reasoning, Retrieval und Verifikation werden in einer einzigen Pipeline kombiniert.

Was ist TMAS und warum ist es jetzt wichtig?

TMAS (Test-time Multi-Agent Synergy) ist eine Architektur für die Organisation von Test-Time-Compute-Scaling als Kollaboration spezialisierter LLM-Agenten. Traditionelle Ansätze (Best-of-N, Tree-of-Thoughts, MCTS) behandeln ein einzelnes Modell als monolithischen Reasoner — TMAS teilt das Problem stattdessen in Rollen auf: Der Reasoner generiert Schritt für Schritt, der Retriever holt relevanten Kontext aus der Gedächtnisbank, der Verifier prüft Zwischenschritte. Alle drei Agenten teilen dasselbe Basis-LLM, erhalten jedoch unterschiedliche System-Prompts und konzentrieren sich auf ihre jeweilige Teilaufgabe.

Warum das jetzt wichtig ist: Test-Time-Scaling hat sich seit dem Beweis durch o1 (OpenAI), dass Chain-of-Thought mit „Denkzeit” bessere Ergebnisse als größere Modelle liefert, zur dominanten Paradigma für Reasoning-Verbesserung entwickelt. AutoTTS (veröffentlicht am 11.05., heute in arXiv:2605.08083) zeigte, dass agentische Discovery optimale TTS-Strategien für ein Compute-Budget von 39,9 $ finden kann. TMAS verallgemeinert nun diesen Ansatz — anstatt die Strategie zu entdecken, strukturiert es die Inferenz explizit als Multi-Agenten-Kollaboration.

Was sind die konkreten Ergebnisse und wie verhalten sie sich im Vergleich zu Baselines?

Die Autoren testen TMAS auf 4 Benchmarks. MATH-500: TMAS mit GPT-4o-mini als Basis erreicht 78,4 % Genauigkeit, Baseline (Best-of-32) 71,2 %. AIME 2024: TMAS 56,7 % vs. Baseline 43,3 %. HumanEval: TMAS 92,1 % vs. Baseline 88,9 %. GPQA Diamond: TMAS 49,8 % vs. Baseline 40,5 %. Alle Ergebnisse liegen beim gleichen Compute-Budget (gemessen in FLOPs), was bedeutet, dass der Gewinn ausschließlich auf die strukturelle Reorganisation der Inferenz zurückzuführen ist.

Besonders interessant ist das Ergebnis bei GPQA Diamond — einem Benchmark, der Antworten auf Doktorandenniveau in Naturwissenschaften testet. Dort ist der Unterschied von 9,3 Prozentpunkten am größten, was darauf hindeutet, dass TMAS bei schwereren Problemen besser skaliert. Der Grund: Bei leichten Problemen erzielt bereits ein einzelner Agent ein gutes Ergebnis — TMAS fügt Mehrwert hinzu, wenn das Problem eine kombinierte Retrieval-Reasoning-Verifikation erfordert.

Wie funktioniert TMAS technisch?

Die Pipeline hat drei Phasen. Phase 1 — Zerlegung: Der Haupt-Controller-Agent zerlegt das Problem in Teilaufgaben und weist sie dem Reasoner-Agenten zu. Phase 2 — Lösungsschleife: Der Reasoner generiert einen Schritt, fragt die Gedächtnisbank nach relevantem Kontext, empfängt ihn vom Retriever und generiert den nächsten Schritt. Der Verifier prüft kontinuierlich Zwischenschritte und markiert jene, die Plausibilitätsprüfungen nicht bestehen. Phase 3 — Synthese: Der Controller fügt die verifizierten Schritte zu einer endgültigen Antwort zusammen.

Die hierarchische Gedächtnisbank ist die Schlüsselinnovation. Standardmäßiger LLM-Kontext ist flach — alle relevanten Informationen müssen in einen einzigen Prompt passen. TMAS verwendet eine Bank mit drei Ebenen: episodisch (aktueller Problemzustand), semantisch (aus einer Vektordatenbank abgerufenes Domänenwissen) und prozedural (erfolgreiche Strategien aus vergangenen Problemen). Der Retriever-Agent entscheidet autonom, welche Ebene er konsultiert.

Was bedeutet das für den Produktionseinsatz?

Für Enterprise-Teams, die Reasoning-Agenten aufbauen (Legal-KI, medizinische Diagnoseassistenten, wissenschaftliche Forschungs-Copiloten), ist der TMAS-Ansatz attraktiv, da er ein bekanntes Problem löst: Ein einzelnes großes Modell zur kreativen Zusammenarbeit mit sich selbst anzutreiben ist schwierig. Ein Multi-Agenten-Setup mit unterschiedlichen Rollen bildet natürlich menschliche Teamarbeit ab, was Debugging und Interpretierbarkeit erleichtert.

Offene Frage: Latenz. TMAS verbraucht per Definition mehr Rechenkapazität pro Anfrage als eine Single-Agent-Baseline, was die Latenz erhöht. Die Autoren berichten von einer 3–5-fach langsameren Antwortzeit als Best-of-N — akzeptabel für Batch-Reasoning, aber nicht für interaktive Chatbots. Für Echtzeit-Agenten (z. B. ein Coding-Assistent, der die nächste Codezeile vorschlägt) ist TMAS noch nicht praktikabel.

Häufig gestellte Fragen

Was ist Test-Time-Compute-Scaling?

Test-Time-Compute-Scaling ist eine Technik, die die Qualität von LLM-Antworten verbessert, indem zum Zeitpunkt der Inferenz (nicht des Trainings) mehr Rechenkapazität eingesetzt wird. Beispiele: Best-of-N-Sampling (N Antworten generieren und die beste auswählen), Tree-of-Thoughts (Erkundung eines Baums möglicher Reasoning-Schritte), MCTS (Monte Carlo Tree Search). TMAS ist die nächste Generation dieses Ansatzes.

Wie verbessert TMAS bestehende Baselines?

TMAS führt drei Schlüsselinnovationen ein: (1) spezialisierte Agenten für verschiedene Rollen (Reasoner, Retriever, Verifier), (2) eine hierarchische Gedächtnisbank, die Zwischenergebnisse über Reasoning-Schritte hinweg speichert, (3) emergente Koordination — Agenten lernen, ohne explizites Protokoll zu kommunizieren. Ergebnis: Beim gleichen Compute-Budget erzielt TMAS 3–12 Prozentpunkte bessere Ergebnisse.

arXiv:2605.10344: TMAS — Multi-Agenten-Test-Time-Scaling stellt neue Rekorde bei Reasoning-Benchmarks auf

Was ist TMAS und warum ist es jetzt wichtig?

Was sind die konkreten Ergebnisse und wie verhalten sie sich im Vergleich zu Baselines?

Wie funktioniert TMAS technisch?

Was bedeutet das für den Produktionseinsatz?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten