🟢 📦 Open Source Objavljeno: · 4 min čitanja ·

arXiv:2605.15706 Differentiable Mixture-of-Agents: dinamičko routing aktiviranje agenata postiže SOTA kroz 9 benchmarka

arXiv:2605.15706 ↗

Editorial illustration: neural network routing graf s LLM agentima i sparse activation indicator-ima.

Differentiable Mixture-of-Agents je novi arXiv paper objavljen 15. svibnja 2026. autora Xingjian Wu, Junkai Lu, Siyu Yan, Xiangfei Qiu, Jilin Hu, Chenjuan Guo i Bin Yang koji uvodi diferencijabilni routing mehanizam za multi-agent LLM suradnju. Sustav dinamički bira i aktivira agente po koraku zaključivanja umjesto fiksne topologije, postiže SOTA rezultate kroz 9 benchmarka s test-time adaptacijom bez eksternih anotacija kroz predictive entropy self-supervision.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Xingjian Wu, Junkai Lu, Siyu Yan, Xiangfei Qiu, Jilin Hu, Chenjuan Guo i Bin Yang objavili su 15. svibnja 2026. na arXivu paper koji predstavlja Differentiable Mixture-of-Agents (Differentiable MoA) — novi framework za multi-agent LLM koordinaciju koji dinamički bira i aktivira agente po koraku zaključivanja umjesto fiksnih predefiniranih topologija.

Koji je problem fiksnih multi-agent topologija?

Klasični multi-agent LLM frameworki — AutoGen (Microsoft), CrewAI, LangGraph, MetaGPT — koriste predefinirane communication patterns. Tipično:

  • Designer definira agent uloge tijekom development time-a
  • Communication flow je fiksiran (round-robin, hierarchical, broadcast)
  • Svi agenti su aktivni za svaku query, čak i ako neki nisu relevantni
  • Routing decisions su rule-based ili static

Problem: task complexity i agent relevance variraju per-step. Reasoning step #1 možda treba samo retrieval agent; step #5 treba math agent + code agent; step #10 treba safety reviewer + finalizer. Fiksne topologije ne mogu efikasno adaptirati taj per-step flow.

Što diferencijabilni routing konkretno radi?

Differentiable MoA tretira agent selection kao diferencijabilan optimization problem. Ključne komponente:

Differentiable Routing Mechanism

  • Context-aware — routing decision ovisi o trenutnom reasoning state-u
  • Recurrent structure — koristi memoriju prethodnih reasoning steps za informed routing
  • Sparse activations — samo subset agenata aktivira po koraku, ne svi
  • End-to-end trainable — routing weights se uče gradient descent-om kroz cijeli pipeline

Dynamic Activation

  • Per-step routing — odluka koji agenti su aktivni mijenja se kroz reasoning trajektoriju
  • Elastic collaboration — agent participation može biti partial (njekima samo da pruže opinion, drugi da finalize)
  • No static workflows — sustav otkriva optimal flow tijekom training-a, ne tijekom design-a

Pristup je inspiriran Mixture-of-Experts (MoE) arhitekturom iz dense modela (Mixtral, DeepSeek MoE), ali aplicirano na agent level umjesto expert layer level.

Što test-time adaptation kroz predictive entropy znači?

Najambicioznija komponenta paper-a je test-time adaptation — sustav se može adaptirati tijekom inference-a bez labelled data:

  • Predictive entropy služi kao self-supervised signal
  • High entropy = model nesiguran u trenutni reasoning step → routing aktivira više agenata za extra perspectives
  • Low entropy = model confident → routing aktivira manje agenata za efficiency
  • Optimization se događa unsupervised — sustav uči iz vlastite uncertainty

Praktične implikacije:

  • Zero-shot deployment — sustav adapts na nove domains bez retraining
  • Cost-aware scaling — easy queries koriste manje compute, hard queries dobiju više
  • Robustness — degradation pod distribution shift je gracije nego kod fiksnih topologija

Što SOTA na 9 benchmarka znači?

Paper navodi state-of-the-art rezultate kroz 9 benchmark suite-ova. Specifične benchmark imena i numerical breakdown nisu detailed u abstractu, ali pristup demonstrira improvements u četiri dimenzije:

  • Performance — accuracy na primary task
  • Efficiency — manji compute / token usage
  • Robustness — degradation pod adversarial ili OOD conditions
  • Ensemble capabilities — kvaliteta multi-agent emergence

9 benchmarka SOTA je značajno jer multi-agent papers tipično cilja specijalizirani benchmark (function calling, reasoning, retrieval). Generalizacija kroz 9 različitih evaluation contexts signalizira da je framework broadly applicable, ne specijaliziran za jednu task family.

Po čemu se razlikuje od Argus paper-a (2605.16217)?

Oba paper-a (objavljena unutar dana) adresiraju multi-agent scaling ali iz različitih kuteva:

AspectArgusDifferentiable MoA
ArchitectureSearcher + NavigatorDifferentiable routing
SpecializationDeep researchGeneral multi-agent
Scaling mechanismParallel SearchersPer-step dynamic activation
TrainingRL synthesisEnd-to-end gradient
Test-timeStatic after trainingPredictive entropy adaptation

Pristupi su komplementarni, ne competitive — Argus rješava redundancy u paralelnim research agentima, Differentiable MoA rješava static routing u general multi-agent systems. Production deployment može koristiti oba framework-a u different application contexts.

Što ovo znači za multi-agent framework industry?

Differentiable MoA challenges current multi-agent framework design philosophy:

  • AutoGen, CrewAI, LangGraph koriste user-defined workflows — paper sugerira da je to suboptimalno
  • Dynamic routing je technically demanding ali daje significant performance gains
  • Predictive entropy kao adaptation signal je elegantno self-supervised pristup koji ne zahtijeva supervision pipeline

Paper se uklapa u 2026. trend architectural innovation u agentic systems: Argus evidence assembly (15.5.), CAST case-based calibration (14.5.), GraphFlow formal verification (15.5.), Dual-Dimensional Consistency token reduction (14.5.). Industry kolektivno priznaje da je brute-force agent scaling neefikasno — treba architecturally smart approach koji dynamic, sparse, i adaptive.

Sljedeći frontier multi-agent benchmarks (BFCLv3, ToolBench v2, BrowseComp 2026) će vjerojatno integrirati elemente iz svih ovih paper-a — što signalizira da je current generation multi-agent frameworka (AutoGen v0.4, CrewAI 0.x) već architecturally outdated za production deployments koji ciljaju 2027-2028 deployment targets.

Česta pitanja

Po čemu se diferencijabilni routing razlikuje od fiksnih multi-agent topologija?
Klasični multi-agent frameworki (AutoGen, CrewAI, LangGraph) koriste predefinirane communication patterns gdje su agenti uvijek aktivni i komunikacijski tok fiksiran tijekom designa; Differentiable MoA koristi context-aware routing mechanism s recurrent strukturama koji proizvodi sparse agent activations po koraku zaključivanja — sustav adaptivno bira koji agenti su relevant za trenutni reasoning step.
Što test-time adaptation kroz predictive entropy znači?
Sustav koristi predictive entropy kao self-supervised signal za optimization tijekom inference — kad model nije siguran (visoki entropy), routing se prilagođuje uključivanjem dodatnih agenata; kad je confident (niski entropy), aktivira manje agenata za efficiency; pristup ne zahtijeva labelled data za adaptation pa radi u zero-shot deployment scenarijima.