arXiv:2605.10344: TMAS multi-agent reasoning rekord

TMAS (Test-time Multi-Agent Scaling) je novi pristup test-time compute scaling-u koji organizira LLM inferencu kao kolaboraciju između specijaliziranih agenata s hijerarhijskim memorijskim bankama. Autori (UC Berkeley + DeepMind) pokazuju nadmašivanje svih postojećih baseline metoda (Best-of-N, MCTS, AutoTTS) na MATH-500, AIME 2024, HumanEval i GPQA Diamond uz isti compute budget. Kombinira reasoning + retrieval + verification u jednoj pipelin-i.

Što je TMAS i zašto je sad važan?

TMAS (Test-time Multi-Agent Synergy) je arhitektura za organizaciju test-time compute scaling-a kao kolaboracije specijaliziranih LLM agenata. Tradicionalni pristupi (Best-of-N, Tree-of-Thoughts, MCTS) tretiraju jedan model kao monolithic reasoner — TMAS umjesto toga dijeli problem na uloge: reasoner generira korak po korak, retriever dohvaća relevantni kontekst iz memorijske banke, verifier provjerava intermediate korake. Sva tri agenta dijele istu osnovnu LLM, ali im se daju različiti system prompt-ovi i fokusirani su na vlastitu subtask.

Razlog zašto je ovo važno: test-time scaling je postao dominantna paradigma za reasoning poboljšanje od kad je o1 (OpenAI) pokazao da chain-of-thought sa “thinking time” daje rezultate bolje od bigger modela. AutoTTS (objavljen 11.05., danas u arXiv:2605.08083) pokazao je da agentska discovery može pronaći optimalne TTS strategije za $39.9 compute budget. TMAS sada generalizira ovaj pristup — umjesto da otkriva strategiju, eksplicitno strukturira inferencu kao multi-agent collaboration.

Što su konkretni rezultati i kako se uspoređuju s baseline-ovima?

Autori testiraju TMAS na 4 benchmarka. MATH-500: TMAS s GPT-4o-mini kao bazom postiže 78.4% accuracy, baseline (Best-of-32) 71.2%. AIME 2024: TMAS 56.7% vs baseline 43.3%. HumanEval: TMAS 92.1% vs baseline 88.9%. GPQA Diamond: TMAS 49.8% vs baseline 40.5%. Svi rezultati su pri istom compute budget-u (mjereno u FLOPs), što znači da je gain isključivo od strukturalne reorganizacije inferenc-a, ne od dodatnog computa.

Posebno je zanimljiv rezultat na GPQA Diamond — benchmark koji testira PhD-level znanstvene odgovore. Tu je razlika 9.3 percentage points najveća, što sugerira da TMAS skalira bolje na težim problemima. Razlog: na lakim problemima jedan agent već postigne dobar rezultat — TMAS dodaje vrijednost kad problem treba retrieval + reasoning + verification kombiniran.

Kako TMAS funkcionira tehnički?

Pipeline ima tri faze. Phase 1 — Decomposition: glavni controller agent dijeli problem na subtask-ove i dodjeljuje ih reasoner agentu. Phase 2 — Solve loop: reasoner generira korak, traži iz memorijske banke relevantan kontekst, dobiva ga od retriever-a, generira sljedeći korak. Verifier kontinuirano provjerava intermediate korake i flag-a one koji ne prolaze sanity checks. Phase 3 — Synthesis: controller spaja verified korake u konačan odgovor.

Hijerarhijska memorijska banka je ključna inovacija. Standardni LLM kontekst je flat — sve relevantne informacije moraju stati u jedan prompt. TMAS koristi banku s tri razine: episodic (current problem state), semantic (domain knowledge retrievirano iz vector DB-a), procedural (uspješne strategije iz prošlih problema). Retriever agent autonomno odlučuje koju razinu konzultirati.

Što ovo znači za primjenu u proizvodnji?

Za enterprise tim koji gradi reasoning agente (legal AI, medical diagnosis assistant, scientific research copilot), TMAS pristup je atraktivan jer rješava poznati problem: jedan veliki model je teško tjerati u kreativnu suradnju sa samim sobom. Multi-agent setup s različitim ulogama prirodno se mapira na ljudski team work, što olakšava debugging i interpretability.

Otvoreno pitanje: latencija. TMAS po definiciji troši više compute-a per query nego single-agent baseline, što povećava latenciju. Autori prijavljuju 3-5× sporiji response time nego Best-of-N, što je acceptable za batch reasoning ali ne za interactive chatbot. Za real-time agente (npr. coding assistant koji predviđa next-line completion), TMAS još uvijek nije practical.

Česta pitanja

Što je test-time compute scaling?

Test-time compute scaling je tehnika koja poboljšava kvalitetu LLM odgovora trošeći više compute-a u trenutku inference-a (ne treninga). Primjeri: Best-of-N sampling (generiranje N odgovora i odabir najboljeg), Tree-of-Thoughts (eksploracija stabla mogućih reasoning koraka), MCTS (Monte Carlo Tree Search). TMAS je nova generacija ovog pristupa.

Kako TMAS poboljšava postojeće baseline-ove?

TMAS uvodi tri ključne inovacije: (1) specijalizirani agenti za različite uloge (reasoner, retriever, verifier), (2) hijerarhijska memorijska banka koja pamti intermediate rezultate kroz reasoning korake, (3) emergentna koordinacija — agenti uče komunicirati bez eksplicitnog protokola. Rezultat: za isti compute budget, TMAS postiže 3-12 percentage points bolje rezultate.

arXiv:2605.10344: TMAS — multi-agent test-time scaling postiže nove rekorde na reasoning benchmarcima

Što je TMAS i zašto je sad važan?

Što su konkretni rezultati i kako se uspoređuju s baseline-ovima?

Kako TMAS funkcionira tehnički?

Što ovo znači za primjenu u proizvodnji?

Česta pitanja

Izvori

Povezane vijesti