arXiv Argus: 86,2 BrowseComp mit 64 parallelen Suchern

Q: Was tut die Evidence-Assembly-Architektur konkret?

Argus behandelt Deep Research als Puzzle-Zusammensetzung — der Searcher führt ReAct-Style-Interaktionen durch und sammelt Evidence-Traces für Sub-Queries; der Navigator pflegt einen gemeinsamen Evidence-Graphen, identifiziert fehlende Teile, dispatcht neue Searcher und synthetisiert die finale Antwort durch Reinforcement Learning; das System funktioniert mit 1, 8 oder 64 parallelen Suchern ohne Neutraining.

Q: Welche Benchmark-Ergebnisse nennt das Paper?

Die Single-Searcher-Konfiguration erreicht +5,5 Prozentpunkte über der Baseline; 8 parallele Searcher +12,7 Prozentpunkte; 64 parallele Searcher erzielen 86,2 auf dem BrowseComp-Benchmark, was jeden getesteten proprietären Research-Agenten übertrifft; der Navigator-Reasoning-Kontext bleibt trotz Skalierung unter 21,5K Tokens.

Argus ist ein neues arXiv-Paper vom 15. Mai 2026 von Zhen Zhang, Liangcai Su, Zhuo Chen und Kollegen, das ein Evidence-Assembly-Framework für Deep-Research-Agenten vorstellt. Das System verwendet eine Dual-Agent-Architektur — Searcher (ReAct-Style-Traces) + Navigator (gemeinsamer Evidence-Graph + RL-Synthese) — und erzielt +5,5 Pkt. mit einem einzelnen Searcher, +12,7 Pkt. mit 8 parallelen sowie einen BrowseComp-Score von 86,2 mit 64 parallelen Suchern ohne Kontextüberschreitung.

Zhen Zhang, Liangcai Su, Zhuo Chen, Xiang Lin, Haotian Xu, Simon Shaolei Du, Kaiyu Yang, Bo An, Lidong Bing und Xinyu Wang veröffentlichten am 15. Mai 2026 auf arXiv ein Paper, das das Argus-Framework für Evidence Assembly in Deep-Research-Agenten vorstellt — einen neuen Ansatz, der das Redundanzproblem paralleler Suchagenten löst.

Was ist das Redundanzproblem bei parallelen Suchagenten?

Aktuelle State-of-the-Art-Deep-Research-Systeme (Perplexity Deep Research, OpenAI Deep Research, GPT-5 Research Mode) verwenden typischerweise parallele Rollouts — mehrere Modellinstanzen erkunden gleichzeitig dieselbe Query.

Das Problem: Rollouts duplizieren den Aufwand. Drei parallele Agenten suchen oft:

Dieselben Quellen
Identische Dokumente
Konvergente, aber nicht komplementäre Erkenntnisse

Praktische Konsequenzen: Token-Kosten multiplizieren sich linear, aber der Informationsgewinn skaliert nicht proportional. 8-facher Parallelismus bringt vielleicht 2–3-fache Verbesserung — weit von optimalem Scaling entfernt.

Was tut die Evidence-Assembly-Architektur konkret?

Argus rahmt das Problem neu: Deep Research als Puzzle-Zusammensetzung. Statt dass jeder Searcher versucht, das gesamte Problem unabhängig zu lösen, teilt das Framework die Verantwortung:

Searcher (ReAct-Style-Trace-Sammler)

Führt ReAct-Style-Interaktionen für Sub-Queries durch, die vom Navigator zugeteilt werden
Sammelt Evidence-Traces — für die Sub-Query relevante Informationsfragmente
Gibt strukturierte Evidence an den gemeinsamen Graphen zurück

Navigator (Graph-Maintainer + RL-Synthesizer)

Pflegt einen gemeinsamen Evidence-Graphen über alle Searcher hinweg
Identifiziert fehlende Teile — wo der Evidence-Graph Lücken oder unzuverlässige Verbindungen aufweist
Dispatcht neue Searcher zur gezielten Erkundung
Synthetisiert die finale Antwort durch eine Reinforcement-Learning-Policy

Der Unterschied ist dramatisch: Parallelismus erzeugt keine Redundanz, da jeder Searcher eine eindeutige Sub-Query vom Navigator erhält, der den gesamten Evidence-State sieht. Jeder neue Searcher fügt ein neues Teil hinzu, kein Duplikat.

Welche Benchmark-Ergebnisse nennt das Paper?

Das Paper nennt präzise Zahlen für drei Skalierungskonfigurationen:

Konfiguration	Verbesserung gegenüber Baseline
Einzelner Searcher	+5,5 Prozentpunkte
8 parallele Searcher	+12,7 Prozentpunkte
64 parallele Searcher	86,2 auf BrowseComp

BrowseComp 86,2 mit 64 parallelen Suchern „übertrifft jeden proprietären Agenten” der getestet wurde. Das ist ein bedeutendes Signal, da BrowseComp ein branchenüblicher Benchmark für Web-Research-Agenten ist und „jeder proprietäre Agent” impliziert, dass Argus Perplexity Deep Research, GPT-5 Research, Claude Research Mode, Google Gemini Deep Research übertrifft.

Wie bleibt der Kontext mit 64 parallelen Agenten handhabbar?

Die klassische Skepsis bei parallelen Multi-Agent-Systemen: Kontext-Explosion. Wenn jeder Searcher einen Evidence-Trace von 2–5K Tokens generiert, ergeben 64 parallele = 128–320K Tokens — über dem Kontextfenster der meisten Modelle.

Argus’ Antwort: Navigator-Reasoning-Kontext bleibt trotz Skalierung unter 21,5K Tokens. Die Technik ist im Abstract nicht explizit beschrieben, verwendet aber vermutlich:

Selektive Evidence-Projektion — der Navigator liest nicht rohe Searcher-Outputs, sondern eine strukturierte Graph-Darstellung
Komprimierung auf Graph-Ebene — Nodes und Edges sind kompakt, kein Volltext
Hierarchische Zusammenfassung — Searcher-Outputs werden vor der Graph-Integration zusammengefasst

35B-A3B MoE-Backbone

Argus verwendet einen 35-Milliarden-Parameter-MoE-Backbone (Mixture of Experts) mit einer A3B-Variante (3 Milliarden aktive Parameter). Konkrete Implikationen:

Kosteneffiziente Inferenz — nur 3B aktive Parameter pro Inferenzaufruf, ca. 10× günstiger als ein dichtes 35B-Modell
Spezialisiertes Expertenwissen — verschiedene Experts im MoE können sich auf unterschiedliche Forschungsdomänen spezialisieren
Skalierbare Architektur — kann weiter trainiert werden (mehr Experts) ohne exponentiellen Compute-Anstieg

Was bedeutet das für die Deep-Research-Industrie?

Argus-Ergebnisse werfen mehrere wichtige Fragen auf:

Proprietärer Burggraben erodiert — wenn ein Open-Source-Paper BrowseComp 86,2 mit 64 parallelen Agenten erzielt, was ist der Burggraben von Perplexity/OpenAI Deep Research?
Kostendynamik verschiebt sich — 64 parallele Searcher klingen teuer, aber mit 3B aktiven MoE-Parametern können die Gesamtkosten niedriger sein als ein einzelner Frontier-Modell-Rollout
Skalierung ohne Neutraining — das Paper stellt fest, dass das Framework das Skalieren „with a single Searcher or many in parallel without retraining” unterstützt — entscheidend für produktive Deployments mit variablen Lasten

Das Paper fügt sich in den 2026er Trend von Agentic-System-Architektur-Papers ein, die proprietäre Führungspositionen herausfordern: GraphFlow (15.5., formale Verifikation), Dual-Dimensional Consistency (14.5., 10× Token-Reduktion), CAST (14.5., +5,85 Pkt. Tool-Nutzung). Alle teilen die Schlussfolgerung, dass architektonisch kluge Ansätze > rohes Modell-Scaling für produktive Agentic-Workloads sind.

arXiv:2605.16217 Argus: Evidence-Assembly-Architektur für Deep-Research-Agenten erreicht +12,7 Pkt. mit 8 parallelen Suchern