arXiv:2605.16217 Argus: Evidence-Assembly-Architektur für Deep-Research-Agenten erreicht +12,7 Pkt. mit 8 parallelen Suchern
Argus ist ein neues arXiv-Paper vom 15. Mai 2026 von Zhen Zhang, Liangcai Su, Zhuo Chen und Kollegen, das ein Evidence-Assembly-Framework für Deep-Research-Agenten vorstellt. Das System verwendet eine Dual-Agent-Architektur — Searcher (ReAct-Style-Traces) + Navigator (gemeinsamer Evidence-Graph + RL-Synthese) — und erzielt +5,5 Pkt. mit einem einzelnen Searcher, +12,7 Pkt. mit 8 parallelen sowie einen BrowseComp-Score von 86,2 mit 64 parallelen Suchern ohne Kontextüberschreitung.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Zhen Zhang, Liangcai Su, Zhuo Chen, Xiang Lin, Haotian Xu, Simon Shaolei Du, Kaiyu Yang, Bo An, Lidong Bing und Xinyu Wang veröffentlichten am 15. Mai 2026 auf arXiv ein Paper, das das Argus-Framework für Evidence Assembly in Deep-Research-Agenten vorstellt — einen neuen Ansatz, der das Redundanzproblem paralleler Suchagenten löst.
Was ist das Redundanzproblem bei parallelen Suchagenten?
Aktuelle State-of-the-Art-Deep-Research-Systeme (Perplexity Deep Research, OpenAI Deep Research, GPT-5 Research Mode) verwenden typischerweise parallele Rollouts — mehrere Modellinstanzen erkunden gleichzeitig dieselbe Query.
Das Problem: Rollouts duplizieren den Aufwand. Drei parallele Agenten suchen oft:
- Dieselben Quellen
- Identische Dokumente
- Konvergente, aber nicht komplementäre Erkenntnisse
Praktische Konsequenzen: Token-Kosten multiplizieren sich linear, aber der Informationsgewinn skaliert nicht proportional. 8-facher Parallelismus bringt vielleicht 2–3-fache Verbesserung — weit von optimalem Scaling entfernt.
Was tut die Evidence-Assembly-Architektur konkret?
Argus rahmt das Problem neu: Deep Research als Puzzle-Zusammensetzung. Statt dass jeder Searcher versucht, das gesamte Problem unabhängig zu lösen, teilt das Framework die Verantwortung:
Searcher (ReAct-Style-Trace-Sammler)
- Führt ReAct-Style-Interaktionen für Sub-Queries durch, die vom Navigator zugeteilt werden
- Sammelt Evidence-Traces — für die Sub-Query relevante Informationsfragmente
- Gibt strukturierte Evidence an den gemeinsamen Graphen zurück
Navigator (Graph-Maintainer + RL-Synthesizer)
- Pflegt einen gemeinsamen Evidence-Graphen über alle Searcher hinweg
- Identifiziert fehlende Teile — wo der Evidence-Graph Lücken oder unzuverlässige Verbindungen aufweist
- Dispatcht neue Searcher zur gezielten Erkundung
- Synthetisiert die finale Antwort durch eine Reinforcement-Learning-Policy
Der Unterschied ist dramatisch: Parallelismus erzeugt keine Redundanz, da jeder Searcher eine eindeutige Sub-Query vom Navigator erhält, der den gesamten Evidence-State sieht. Jeder neue Searcher fügt ein neues Teil hinzu, kein Duplikat.
Welche Benchmark-Ergebnisse nennt das Paper?
Das Paper nennt präzise Zahlen für drei Skalierungskonfigurationen:
| Konfiguration | Verbesserung gegenüber Baseline |
|---|---|
| Einzelner Searcher | +5,5 Prozentpunkte |
| 8 parallele Searcher | +12,7 Prozentpunkte |
| 64 parallele Searcher | 86,2 auf BrowseComp |
BrowseComp 86,2 mit 64 parallelen Suchern „übertrifft jeden proprietären Agenten” der getestet wurde. Das ist ein bedeutendes Signal, da BrowseComp ein branchenüblicher Benchmark für Web-Research-Agenten ist und „jeder proprietäre Agent” impliziert, dass Argus Perplexity Deep Research, GPT-5 Research, Claude Research Mode, Google Gemini Deep Research übertrifft.
Wie bleibt der Kontext mit 64 parallelen Agenten handhabbar?
Die klassische Skepsis bei parallelen Multi-Agent-Systemen: Kontext-Explosion. Wenn jeder Searcher einen Evidence-Trace von 2–5K Tokens generiert, ergeben 64 parallele = 128–320K Tokens — über dem Kontextfenster der meisten Modelle.
Argus’ Antwort: Navigator-Reasoning-Kontext bleibt trotz Skalierung unter 21,5K Tokens. Die Technik ist im Abstract nicht explizit beschrieben, verwendet aber vermutlich:
- Selektive Evidence-Projektion — der Navigator liest nicht rohe Searcher-Outputs, sondern eine strukturierte Graph-Darstellung
- Komprimierung auf Graph-Ebene — Nodes und Edges sind kompakt, kein Volltext
- Hierarchische Zusammenfassung — Searcher-Outputs werden vor der Graph-Integration zusammengefasst
35B-A3B MoE-Backbone
Argus verwendet einen 35-Milliarden-Parameter-MoE-Backbone (Mixture of Experts) mit einer A3B-Variante (3 Milliarden aktive Parameter). Konkrete Implikationen:
- Kosteneffiziente Inferenz — nur 3B aktive Parameter pro Inferenzaufruf, ca. 10× günstiger als ein dichtes 35B-Modell
- Spezialisiertes Expertenwissen — verschiedene Experts im MoE können sich auf unterschiedliche Forschungsdomänen spezialisieren
- Skalierbare Architektur — kann weiter trainiert werden (mehr Experts) ohne exponentiellen Compute-Anstieg
Was bedeutet das für die Deep-Research-Industrie?
Argus-Ergebnisse werfen mehrere wichtige Fragen auf:
- Proprietärer Burggraben erodiert — wenn ein Open-Source-Paper BrowseComp 86,2 mit 64 parallelen Agenten erzielt, was ist der Burggraben von Perplexity/OpenAI Deep Research?
- Kostendynamik verschiebt sich — 64 parallele Searcher klingen teuer, aber mit 3B aktiven MoE-Parametern können die Gesamtkosten niedriger sein als ein einzelner Frontier-Modell-Rollout
- Skalierung ohne Neutraining — das Paper stellt fest, dass das Framework das Skalieren „with a single Searcher or many in parallel without retraining” unterstützt — entscheidend für produktive Deployments mit variablen Lasten
Das Paper fügt sich in den 2026er Trend von Agentic-System-Architektur-Papers ein, die proprietäre Führungspositionen herausfordern: GraphFlow (15.5., formale Verifikation), Dual-Dimensional Consistency (14.5., 10× Token-Reduktion), CAST (14.5., +5,85 Pkt. Tool-Nutzung). Alle teilen die Schlussfolgerung, dass architektonisch kluge Ansätze > rohes Modell-Scaling für produktive Agentic-Workloads sind.
Häufig gestellte Fragen
- Was tut die Evidence-Assembly-Architektur konkret?
- Argus behandelt Deep Research als Puzzle-Zusammensetzung — der Searcher führt ReAct-Style-Interaktionen durch und sammelt Evidence-Traces für Sub-Queries; der Navigator pflegt einen gemeinsamen Evidence-Graphen, identifiziert fehlende Teile, dispatcht neue Searcher und synthetisiert die finale Antwort durch Reinforcement Learning; das System funktioniert mit 1, 8 oder 64 parallelen Suchern ohne Neutraining.
- Welche Benchmark-Ergebnisse nennt das Paper?
- Die Single-Searcher-Konfiguration erreicht +5,5 Prozentpunkte über der Baseline; 8 parallele Searcher +12,7 Prozentpunkte; 64 parallele Searcher erzielen 86,2 auf dem BrowseComp-Benchmark, was jeden getesteten proprietären Research-Agenten übertrifft; der Navigator-Reasoning-Kontext bleibt trotz Skalierung unter 21,5K Tokens.