arXiv:2605.05191: LongSeeker erreicht 61,5 % auf BrowseComp

Forscher stellten LongSeeker vor — einen Agenten für langhorizonte Suche, der den Context-ReAct-Rahmen mit fünf dynamischen Kontextverwaltungsoperationen nutzt. Das Modell erreicht 61,5 % auf dem BrowseComp-Benchmark und übertrifft Tongyi DeepResearch um 18 Prozentpunkte.

Ein Team chinesischer Universitäten (Autoren: Yijun Lu, Rui Ye, Yuwen Du, Jiajun Wang, Songhua Liu, Siheng Chen) veröffentlichte am 6. Mai 2026 die Arbeit arXiv:2605.05191, in der es LongSeeker vorstellt — einen Agenten für langhorizonte Suche, der auf dem Context-ReAct-Rahmen basiert.

Fünf dynamische Operationen über den Arbeitskontext

Die Kernidee des Context-ReAct-Rahmens ist, dass der Agent die gesamte Trajektorie nicht gleich behandeln darf. Die Arbeit gibt an, dass „Teile der Trajektorie auf unterschiedlichen Detailebenen gehalten werden”, abhängig von ihrer Relevanz für den aktuellen Schritt. Der Rahmen führt fünf Operationen über den Arbeitskontext ein:

Skip — Überspringen irrelevanter Schritte.
Compress — Verdichten längerer Segmente zu kürzeren Repräsentationen.
Rollback — Rückkehr zu einem früheren Trajektorienknoten, wenn der aktuelle Zweig nicht zum Ziel führt.
Snippet — Beibehaltung eines konkreten Ausschnitts aus einer abgerufenen Seite.
Delete — Entfernen fehlerhafter oder veralteter Inhalte aus dem Kontext.

Jede dieser Operationen schützt den Agenten vor Kontext-Überlauf — einem chronischen Problem agentischer Systeme, die eine längere Schrittfolge ausführen.

Leistung und Vergleich

LongSeeker ist auf der Qwen3-30B-A3B-Basis mit 10.000 synthetisierten Trajektorien feinabgestimmt. Auf dem BrowseComp-Benchmark erreicht es 61,5 %, auf der chinesischen Variante BrowseComp-ZH 62,5 %. Konkurrenten liegen deutlich zurück: Tongyi DeepResearch erzielt 43,2 % bzw. 46,7 %, während AgentFold 36,2 % und 47,3 % erreicht. Der Abstand von über 18 Prozentpunkten gegenüber Tongyi DeepResearch ist der aktuell größte auf BrowseComp verzeichnete Vorsprung.

Warum ist das wichtig?

Die meisten ReAct-basierten Agenten leiden unter linearem Kontextwachstum — jeder Schritt fügt den Rohinhalt vorheriger Schritte hinzu. Context-ReAct führt explizites Kontextmanagement als erstklassige Operation ein, ähnlich wie ein Programmierer Speicher verwaltet. Dies eröffnet den Weg zu langhorizonten Agentensitzungen, die nicht durch die Größe des Kontextfensters des zugrunde liegenden Modells begrenzt sind.

Häufig gestellte Fragen

Was ist BrowseComp?

BrowseComp ist ein Benchmark für Agenten, die komplexe Web-Suchaufgaben mit langem Horizont lösen — mehrere Schritte, mehrere Seiten, Integration der Ergebnisse in eine Endantwort.

Was sind die fünf Operationen im Context-ReAct-Rahmen?

Skip, Compress, Rollback, Snippet und Delete — Operationen, die dem Agenten ermöglichen, seinen Arbeitskontext während einer langhorizonten Aufgabe adaptiv umzugestalten.

Wie schneidet LongSeeker im Vergleich ab?

Es erreicht 61,5 % auf BrowseComp und 62,5 % auf BrowseComp-ZH, gegenüber 43,2 % / 46,7 % für Tongyi DeepResearch und 36,2 % / 47,3 % für AgentFold.

arXiv:2605.05191: LongSeeker mit Context-ReAct-Rahmen erreicht 61,5 % auf BrowseComp

Fünf dynamische Operationen über den Arbeitskontext

Leistung und Vergleich

Warum ist das wichtig?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten