arXiv:2605.15706 Differentiable Mixture-of-Agents: dinamičko routing aktiviranje agenata postiže SOTA kroz 9 benchmarka
Differentiable Mixture-of-Agents je novi arXiv paper objavljen 15. svibnja 2026. autora Xingjian Wu, Junkai Lu, Siyu Yan, Xiangfei Qiu, Jilin Hu, Chenjuan Guo i Bin Yang koji uvodi diferencijabilni routing mehanizam za multi-agent LLM suradnju. Sustav dinamički bira i aktivira agente po koraku zaključivanja umjesto fiksne topologije, postiže SOTA rezultate kroz 9 benchmarka s test-time adaptacijom bez eksternih anotacija kroz predictive entropy self-supervision.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Xingjian Wu, Junkai Lu, Siyu Yan, Xiangfei Qiu, Jilin Hu, Chenjuan Guo i Bin Yang objavili su 15. svibnja 2026. na arXivu paper koji predstavlja Differentiable Mixture-of-Agents (Differentiable MoA) — novi framework za multi-agent LLM koordinaciju koji dinamički bira i aktivira agente po koraku zaključivanja umjesto fiksnih predefiniranih topologija.
Koji je problem fiksnih multi-agent topologija?
Klasični multi-agent LLM frameworki — AutoGen (Microsoft), CrewAI, LangGraph, MetaGPT — koriste predefinirane communication patterns. Tipično:
- Designer definira agent uloge tijekom development time-a
- Communication flow je fiksiran (round-robin, hierarchical, broadcast)
- Svi agenti su aktivni za svaku query, čak i ako neki nisu relevantni
- Routing decisions su rule-based ili static
Problem: task complexity i agent relevance variraju per-step. Reasoning step #1 možda treba samo retrieval agent; step #5 treba math agent + code agent; step #10 treba safety reviewer + finalizer. Fiksne topologije ne mogu efikasno adaptirati taj per-step flow.
Što diferencijabilni routing konkretno radi?
Differentiable MoA tretira agent selection kao diferencijabilan optimization problem. Ključne komponente:
Differentiable Routing Mechanism
- Context-aware — routing decision ovisi o trenutnom reasoning state-u
- Recurrent structure — koristi memoriju prethodnih reasoning steps za informed routing
- Sparse activations — samo subset agenata aktivira po koraku, ne svi
- End-to-end trainable — routing weights se uče gradient descent-om kroz cijeli pipeline
Dynamic Activation
- Per-step routing — odluka koji agenti su aktivni mijenja se kroz reasoning trajektoriju
- Elastic collaboration — agent participation može biti partial (njekima samo da pruže opinion, drugi da finalize)
- No static workflows — sustav otkriva optimal flow tijekom training-a, ne tijekom design-a
Pristup je inspiriran Mixture-of-Experts (MoE) arhitekturom iz dense modela (Mixtral, DeepSeek MoE), ali aplicirano na agent level umjesto expert layer level.
Što test-time adaptation kroz predictive entropy znači?
Najambicioznija komponenta paper-a je test-time adaptation — sustav se može adaptirati tijekom inference-a bez labelled data:
- Predictive entropy služi kao self-supervised signal
- High entropy = model nesiguran u trenutni reasoning step → routing aktivira više agenata za extra perspectives
- Low entropy = model confident → routing aktivira manje agenata za efficiency
- Optimization se događa unsupervised — sustav uči iz vlastite uncertainty
Praktične implikacije:
- Zero-shot deployment — sustav adapts na nove domains bez retraining
- Cost-aware scaling — easy queries koriste manje compute, hard queries dobiju više
- Robustness — degradation pod distribution shift je gracije nego kod fiksnih topologija
Što SOTA na 9 benchmarka znači?
Paper navodi state-of-the-art rezultate kroz 9 benchmark suite-ova. Specifične benchmark imena i numerical breakdown nisu detailed u abstractu, ali pristup demonstrira improvements u četiri dimenzije:
- Performance — accuracy na primary task
- Efficiency — manji compute / token usage
- Robustness — degradation pod adversarial ili OOD conditions
- Ensemble capabilities — kvaliteta multi-agent emergence
9 benchmarka SOTA je značajno jer multi-agent papers tipično cilja specijalizirani benchmark (function calling, reasoning, retrieval). Generalizacija kroz 9 različitih evaluation contexts signalizira da je framework broadly applicable, ne specijaliziran za jednu task family.
Po čemu se razlikuje od Argus paper-a (2605.16217)?
Oba paper-a (objavljena unutar dana) adresiraju multi-agent scaling ali iz različitih kuteva:
| Aspect | Argus | Differentiable MoA |
|---|---|---|
| Architecture | Searcher + Navigator | Differentiable routing |
| Specialization | Deep research | General multi-agent |
| Scaling mechanism | Parallel Searchers | Per-step dynamic activation |
| Training | RL synthesis | End-to-end gradient |
| Test-time | Static after training | Predictive entropy adaptation |
Pristupi su komplementarni, ne competitive — Argus rješava redundancy u paralelnim research agentima, Differentiable MoA rješava static routing u general multi-agent systems. Production deployment može koristiti oba framework-a u different application contexts.
Što ovo znači za multi-agent framework industry?
Differentiable MoA challenges current multi-agent framework design philosophy:
- AutoGen, CrewAI, LangGraph koriste user-defined workflows — paper sugerira da je to suboptimalno
- Dynamic routing je technically demanding ali daje significant performance gains
- Predictive entropy kao adaptation signal je elegantno self-supervised pristup koji ne zahtijeva supervision pipeline
Paper se uklapa u 2026. trend architectural innovation u agentic systems: Argus evidence assembly (15.5.), CAST case-based calibration (14.5.), GraphFlow formal verification (15.5.), Dual-Dimensional Consistency token reduction (14.5.). Industry kolektivno priznaje da je brute-force agent scaling neefikasno — treba architecturally smart approach koji dynamic, sparse, i adaptive.
Sljedeći frontier multi-agent benchmarks (BFCLv3, ToolBench v2, BrowseComp 2026) će vjerojatno integrirati elemente iz svih ovih paper-a — što signalizira da je current generation multi-agent frameworka (AutoGen v0.4, CrewAI 0.x) već architecturally outdated za production deployments koji ciljaju 2027-2028 deployment targets.
Česta pitanja
- Po čemu se diferencijabilni routing razlikuje od fiksnih multi-agent topologija?
- Klasični multi-agent frameworki (AutoGen, CrewAI, LangGraph) koriste predefinirane communication patterns gdje su agenti uvijek aktivni i komunikacijski tok fiksiran tijekom designa; Differentiable MoA koristi context-aware routing mechanism s recurrent strukturama koji proizvodi sparse agent activations po koraku zaključivanja — sustav adaptivno bira koji agenti su relevant za trenutni reasoning step.
- Što test-time adaptation kroz predictive entropy znači?
- Sustav koristi predictive entropy kao self-supervised signal za optimization tijekom inference — kad model nije siguran (visoki entropy), routing se prilagođuje uključivanjem dodatnih agenata; kad je confident (niski entropy), aktivira manje agenata za efficiency; pristup ne zahtijeva labelled data za adaptation pa radi u zero-shot deployment scenarijima.