arXiv Argus: 86,2 BrowseComp s 64 paralelnih searchera

Q: Što evidence assembly arhitektura konkretno radi?

Argus tretira deep research kao puzzle assembly — Searcher provodi ReAct-style interakcije i skuplja evidence traces za sub-queries; Navigator održava shared evidence graph, identificira missing pieces, dispatchira nove Searcher-e i sintetizira finalni odgovor kroz reinforcement learning; sustav radi s 1, 8 ili 64 paralelnih Searcher-a bez retraininga.

Q: Koje benchmark rezultate paper navodi?

Single Searcher konfiguracija postiže +5,5 postotnih bodova nad baseline-om; 8 paralelnih Searcher-a +12,7 postotnih bodova; 64 paralelnih Searcher-a postiže 86,2 na BrowseComp benchmark-u što nadmašuje svaki testirani proprietary research agent; Navigator reasoning context ostaje ispod 21,5K tokena unatoč skaliranju.

Argus je novi arXiv paper objavljen 15. svibnja 2026. autora Zhen Zhang, Liangcai Su, Zhuo Chen i kolega koji predstavlja evidence assembly framework za deep research agente. Sustav koristi dual-agent arhitekturu — Searcher (ReAct-style traces) + Navigator (shared evidence graph + RL synthesis) — i postiže +5,5pp s jednim Searcher-om, +12,7pp s 8 paralelnih, te 86,2 score na BrowseComp s 64 paralelnih bez prekoračenja konteksta.

Zhen Zhang, Liangcai Su, Zhuo Chen, Xiang Lin, Haotian Xu, Simon Shaolei Du, Kaiyu Yang, Bo An, Lidong Bing i Xinyu Wang objavili su 15. svibnja 2026. na arXivu paper koji predstavlja Argus framework za evidence assembly u deep research agentima — novi pristup koji riješava redundancy problem paralelnih search agenata.

Što je redundancy problem u paralelnim search agentima?

Trenutni state-of-the-art deep research sustavi (Perplexity Deep Research, OpenAI Deep Research, GPT-5 Research mode) tipično koriste paralelne rollouts — više instance modela istovremeno istraživaju istu query.

Problem: rollouts duplikuju effort. Tri paralelne agenta često:

Traže iste source-e
Citiraju identične documents
Stižu do convergent ali ne complementary insights

Praktične posljedice: token cost se multiplika linearno, ali information gain ne skala proporcionalno. 8× paralelizam možda donosi 2-3× corresponding improvement — što je daleko od optimal scaling.

Što evidence assembly arhitektura konkretno radi?

Argus reframuje problem: deep research kao puzzle assembly. Umjesto da svaki Searcher pokuša solve cijeli problem nezavisno, framework dijeli odgovornost:

Searcher (ReAct-style trace collector)

Provodi ReAct-style interakcije za sub-queries dodijeljene od Navigator-a
Skuplja evidence traces — pieces of information relevant za sub-query
Returns structured evidence u shared graph

Navigator (graph maintainer + RL synthesizer)

Održava shared evidence graph preko svih Searcher-a
Identificira missing pieces — gdje evidence graph ima rupe ili nepouzdane connections
Dispatchira nove Searcher-e za targeted exploration
Sintetizira finalni odgovor kroz reinforcement learning policy

Razlika je dramatic: paralelizam ne stvara redundancy jer svaki Searcher dobiva distinct sub-query od Navigator-a koji vidi cijeli evidence state. Svaki novi Searcher dodaje novo piece, ne duplicira postojeće.

Koje benchmark rezultate paper navodi?

Paper navodi precizne brojeve za tri scaling konfiguracije:

Konfiguracija	Improvement nad baseline
Single Searcher	+5,5 percentage points
8 Parallel Searchers	+12,7 percentage points
64 Parallel Searchers	86,2 na BrowseComp

BrowseComp 86,2 s 64 paralelnih Searcher-a “surpasses every proprietary agent” benchmarked. To je značajan signal jer BrowseComp je industry-standard benchmark za web research agente, i “every proprietary agent” implicira da Argus nadmašuje Perplexity Deep Research, GPT-5 Research, Claude Research mode, Google Gemini Deep Research.

Kako kontekst ostaje manageable s 64 paralelnih agenata?

Klasično skeptično pitanje paralelnih multi-agent systems: context explosion. Ako svaki Searcher generira evidence trace od 2-5k tokena, 64 paralelnih = 128-320k tokena što je preko context window-a većine modela.

Argus odgovor: Navigator reasoning context remains under 21,5K tokens despite scaling. Tehnika nije eksplicitno detailed u abstractu, ali predpostavljeno koristi:

Selective evidence projection — Navigator ne čita raw Searcher outputs već structured graph representation
Compression at graph level — node-ovi i edges su compact, ne full text
Hierarchical summarization — Searcher outputs summarized prije graph integration

35B-A3B MoE backbone

Argus koristi 35 milijarda parameter MoE (Mixture of Experts) backbone s A3B (3 milijarde active parameters) variantu. Konkretne implikacije:

Cost-efficient inference — samo 3B aktivnih parametara po inference call-u, što je ~10× jeftinije od dense 35B model-a
Specialized expertise — different experts u MoE-u mogu specijalizirati za različite research domains
Scalable architecture — može se trenirati dalje (više experts) bez exponential compute increase

Što ovo znači za deep research industry?

Argus rezultati postavljaju nekoliko važnih pitanja:

Proprietary moat eroded — ako open-source paper postiže BrowseComp 86,2 s 64 paralelnih agenata, koji je moat Perplexity/OpenAI Deep Research?
Cost dynamics shift — 64 paralelnih Searcher-a zvuči skupo, ali s 3B aktivnih parametara MoE-a, ukupna cost može biti niža od single frontier model rollout-a
Scaling without retraining — paper navodi da framework supports scaling “with a single Searcher or many in parallel without retraining” — ključno za production deployment gdje load varies

Paper se uklapa u 2026. trend agentic system architecture papira koji izazov proprietary leader positions: GraphFlow (15.5., formal verification), Dual-Dimensional Consistency (14.5., 10× token reduction), CAST (14.5., +5,85pp tool use). Sve dijele zaključak da je architecturally smart approach > raw model scaling za production agentic workloads.

arXiv:2605.16217 Argus: evidence assembly arhitektura za deep research agente postiže +12,7pp s 8 paralelnih searchera