🟡 🤝 Agenti Objavljeno: · 4 min čitanja ·

arXiv:2605.16217 Argus: evidence assembly arhitektura za deep research agente postiže +12,7pp s 8 paralelnih searchera

arXiv:2605.16217 ↗

Editorial illustration: knowledge graph s evidence node-ovima i parallel searcher agentima oko centralnog navigator-a.

Argus je novi arXiv paper objavljen 15. svibnja 2026. autora Zhen Zhang, Liangcai Su, Zhuo Chen i kolega koji predstavlja evidence assembly framework za deep research agente. Sustav koristi dual-agent arhitekturu — Searcher (ReAct-style traces) + Navigator (shared evidence graph + RL synthesis) — i postiže +5,5pp s jednim Searcher-om, +12,7pp s 8 paralelnih, te 86,2 score na BrowseComp s 64 paralelnih bez prekoračenja konteksta.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Zhen Zhang, Liangcai Su, Zhuo Chen, Xiang Lin, Haotian Xu, Simon Shaolei Du, Kaiyu Yang, Bo An, Lidong Bing i Xinyu Wang objavili su 15. svibnja 2026. na arXivu paper koji predstavlja Argus framework za evidence assembly u deep research agentima — novi pristup koji riješava redundancy problem paralelnih search agenata.

Što je redundancy problem u paralelnim search agentima?

Trenutni state-of-the-art deep research sustavi (Perplexity Deep Research, OpenAI Deep Research, GPT-5 Research mode) tipično koriste paralelne rollouts — više instance modela istovremeno istraživaju istu query.

Problem: rollouts duplikuju effort. Tri paralelne agenta često:

  • Traže iste source-e
  • Citiraju identične documents
  • Stižu do convergent ali ne complementary insights

Praktične posljedice: token cost se multiplika linearno, ali information gain ne skala proporcionalno. 8× paralelizam možda donosi 2-3× corresponding improvement — što je daleko od optimal scaling.

Što evidence assembly arhitektura konkretno radi?

Argus reframuje problem: deep research kao puzzle assembly. Umjesto da svaki Searcher pokuša solve cijeli problem nezavisno, framework dijeli odgovornost:

Searcher (ReAct-style trace collector)

  • Provodi ReAct-style interakcije za sub-queries dodijeljene od Navigator-a
  • Skuplja evidence traces — pieces of information relevant za sub-query
  • Returns structured evidence u shared graph
  • Održava shared evidence graph preko svih Searcher-a
  • Identificira missing pieces — gdje evidence graph ima rupe ili nepouzdane connections
  • Dispatchira nove Searcher-e za targeted exploration
  • Sintetizira finalni odgovor kroz reinforcement learning policy

Razlika je dramatic: paralelizam ne stvara redundancy jer svaki Searcher dobiva distinct sub-query od Navigator-a koji vidi cijeli evidence state. Svaki novi Searcher dodaje novo piece, ne duplicira postojeće.

Koje benchmark rezultate paper navodi?

Paper navodi precizne brojeve za tri scaling konfiguracije:

KonfiguracijaImprovement nad baseline
Single Searcher+5,5 percentage points
8 Parallel Searchers+12,7 percentage points
64 Parallel Searchers86,2 na BrowseComp

BrowseComp 86,2 s 64 paralelnih Searcher-a “surpasses every proprietary agent” benchmarked. To je značajan signal jer BrowseComp je industry-standard benchmark za web research agente, i “every proprietary agent” implicira da Argus nadmašuje Perplexity Deep Research, GPT-5 Research, Claude Research mode, Google Gemini Deep Research.

Kako kontekst ostaje manageable s 64 paralelnih agenata?

Klasično skeptično pitanje paralelnih multi-agent systems: context explosion. Ako svaki Searcher generira evidence trace od 2-5k tokena, 64 paralelnih = 128-320k tokena što je preko context window-a većine modela.

Argus odgovor: Navigator reasoning context remains under 21,5K tokens despite scaling. Tehnika nije eksplicitno detailed u abstractu, ali predpostavljeno koristi:

  • Selective evidence projection — Navigator ne čita raw Searcher outputs već structured graph representation
  • Compression at graph level — node-ovi i edges su compact, ne full text
  • Hierarchical summarization — Searcher outputs summarized prije graph integration

35B-A3B MoE backbone

Argus koristi 35 milijarda parameter MoE (Mixture of Experts) backbone s A3B (3 milijarde active parameters) variantu. Konkretne implikacije:

  • Cost-efficient inference — samo 3B aktivnih parametara po inference call-u, što je ~10× jeftinije od dense 35B model-a
  • Specialized expertise — different experts u MoE-u mogu specijalizirati za različite research domains
  • Scalable architecture — može se trenirati dalje (više experts) bez exponential compute increase

Što ovo znači za deep research industry?

Argus rezultati postavljaju nekoliko važnih pitanja:

  • Proprietary moat eroded — ako open-source paper postiže BrowseComp 86,2 s 64 paralelnih agenata, koji je moat Perplexity/OpenAI Deep Research?
  • Cost dynamics shift — 64 paralelnih Searcher-a zvuči skupo, ali s 3B aktivnih parametara MoE-a, ukupna cost može biti niža od single frontier model rollout-a
  • Scaling without retraining — paper navodi da framework supports scaling “with a single Searcher or many in parallel without retraining” — ključno za production deployment gdje load varies

Paper se uklapa u 2026. trend agentic system architecture papira koji izazov proprietary leader positions: GraphFlow (15.5., formal verification), Dual-Dimensional Consistency (14.5., 10× token reduction), CAST (14.5., +5,85pp tool use). Sve dijele zaključak da je architecturally smart approach > raw model scaling za production agentic workloads.

Česta pitanja

Što evidence assembly arhitektura konkretno radi?
Argus tretira deep research kao puzzle assembly — Searcher provodi ReAct-style interakcije i skuplja evidence traces za sub-queries; Navigator održava shared evidence graph, identificira missing pieces, dispatchira nove Searcher-e i sintetizira finalni odgovor kroz reinforcement learning; sustav radi s 1, 8 ili 64 paralelnih Searcher-a bez retraininga.
Koje benchmark rezultate paper navodi?
Single Searcher konfiguracija postiže +5,5 postotnih bodova nad baseline-om; 8 paralelnih Searcher-a +12,7 postotnih bodova; 64 paralelnih Searcher-a postiže 86,2 na BrowseComp benchmark-u što nadmašuje svaki testirani proprietary research agent; Navigator reasoning context ostaje ispod 21,5K tokena unatoč skaliranju.