arXiv:2605.10344: TMAS — multi-agent test-time scaling postiže nove rekorde na reasoning benchmarcima
TMAS (Test-time Multi-Agent Scaling) je novi pristup test-time compute scaling-u koji organizira LLM inferencu kao kolaboraciju između specijaliziranih agenata s hijerarhijskim memorijskim bankama. Autori (UC Berkeley + DeepMind) pokazuju nadmašivanje svih postojećih baseline metoda (Best-of-N, MCTS, AutoTTS) na MATH-500, AIME 2024, HumanEval i GPQA Diamond uz isti compute budget. Kombinira reasoning + retrieval + verification u jednoj pipelin-i.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Što je TMAS i zašto je sad važan?
TMAS (Test-time Multi-Agent Synergy) je arhitektura za organizaciju test-time compute scaling-a kao kolaboracije specijaliziranih LLM agenata. Tradicionalni pristupi (Best-of-N, Tree-of-Thoughts, MCTS) tretiraju jedan model kao monolithic reasoner — TMAS umjesto toga dijeli problem na uloge: reasoner generira korak po korak, retriever dohvaća relevantni kontekst iz memorijske banke, verifier provjerava intermediate korake. Sva tri agenta dijele istu osnovnu LLM, ali im se daju različiti system prompt-ovi i fokusirani su na vlastitu subtask.
Razlog zašto je ovo važno: test-time scaling je postao dominantna paradigma za reasoning poboljšanje od kad je o1 (OpenAI) pokazao da chain-of-thought sa “thinking time” daje rezultate bolje od bigger modela. AutoTTS (objavljen 11.05., danas u arXiv:2605.08083) pokazao je da agentska discovery može pronaći optimalne TTS strategije za $39.9 compute budget. TMAS sada generalizira ovaj pristup — umjesto da otkriva strategiju, eksplicitno strukturira inferencu kao multi-agent collaboration.
Što su konkretni rezultati i kako se uspoređuju s baseline-ovima?
Autori testiraju TMAS na 4 benchmarka. MATH-500: TMAS s GPT-4o-mini kao bazom postiže 78.4% accuracy, baseline (Best-of-32) 71.2%. AIME 2024: TMAS 56.7% vs baseline 43.3%. HumanEval: TMAS 92.1% vs baseline 88.9%. GPQA Diamond: TMAS 49.8% vs baseline 40.5%. Svi rezultati su pri istom compute budget-u (mjereno u FLOPs), što znači da je gain isključivo od strukturalne reorganizacije inferenc-a, ne od dodatnog computa.
Posebno je zanimljiv rezultat na GPQA Diamond — benchmark koji testira PhD-level znanstvene odgovore. Tu je razlika 9.3 percentage points najveća, što sugerira da TMAS skalira bolje na težim problemima. Razlog: na lakim problemima jedan agent već postigne dobar rezultat — TMAS dodaje vrijednost kad problem treba retrieval + reasoning + verification kombiniran.
Kako TMAS funkcionira tehnički?
Pipeline ima tri faze. Phase 1 — Decomposition: glavni controller agent dijeli problem na subtask-ove i dodjeljuje ih reasoner agentu. Phase 2 — Solve loop: reasoner generira korak, traži iz memorijske banke relevantan kontekst, dobiva ga od retriever-a, generira sljedeći korak. Verifier kontinuirano provjerava intermediate korake i flag-a one koji ne prolaze sanity checks. Phase 3 — Synthesis: controller spaja verified korake u konačan odgovor.
Hijerarhijska memorijska banka je ključna inovacija. Standardni LLM kontekst je flat — sve relevantne informacije moraju stati u jedan prompt. TMAS koristi banku s tri razine: episodic (current problem state), semantic (domain knowledge retrievirano iz vector DB-a), procedural (uspješne strategije iz prošlih problema). Retriever agent autonomno odlučuje koju razinu konzultirati.
Što ovo znači za primjenu u proizvodnji?
Za enterprise tim koji gradi reasoning agente (legal AI, medical diagnosis assistant, scientific research copilot), TMAS pristup je atraktivan jer rješava poznati problem: jedan veliki model je teško tjerati u kreativnu suradnju sa samim sobom. Multi-agent setup s različitim ulogama prirodno se mapira na ljudski team work, što olakšava debugging i interpretability.
Otvoreno pitanje: latencija. TMAS po definiciji troši više compute-a per query nego single-agent baseline, što povećava latenciju. Autori prijavljuju 3-5× sporiji response time nego Best-of-N, što je acceptable za batch reasoning ali ne za interactive chatbot. Za real-time agente (npr. coding assistant koji predviđa next-line completion), TMAS još uvijek nije practical.
Česta pitanja
- Što je test-time compute scaling?
- Test-time compute scaling je tehnika koja poboljšava kvalitetu LLM odgovora trošeći više compute-a u trenutku inference-a (ne treninga). Primjeri: Best-of-N sampling (generiranje N odgovora i odabir najboljeg), Tree-of-Thoughts (eksploracija stabla mogućih reasoning koraka), MCTS (Monte Carlo Tree Search). TMAS je nova generacija ovog pristupa.
- Kako TMAS poboljšava postojeće baseline-ove?
- TMAS uvodi tri ključne inovacije: (1) specijalizirani agenti za različite uloge (reasoner, retriever, verifier), (2) hijerarhijska memorijska banka koja pamti intermediate rezultate kroz reasoning korake, (3) emergentna koordinacija — agenti uče komunicirati bez eksplicitnog protokola. Rezultat: za isti compute budget, TMAS postiže 3-12 percentage points bolje rezultate.
Povezane vijesti
arXiv:2605.22502: Kompiliranjem agentskih workflowa u LLM težine postiže se near-frontier kvaliteta uz 100 puta nižu cijenu
arXiv:2605.22794: MOSS pokazuje agente koji se sami unapređuju mijenjajući vlastiti izvorni kod
arXiv:2605.22535: TerminalWorld benchmark mjeri LLM agente na stvarnim Linux terminal zadacima bez simulacije