arXiv:2605.05191: LongSeeker postiže 61,5% na BrowseCompu

Istraživači su predstavili LongSeeker — agent za dugotrajno pretraživanje koji koristi Context-ReAct okvir s pet dinamičkih operacija upravljanja kontekstom. Model postiže 61,5% na BrowseComp benchmarku i nadmašuje Tongyi DeepResearch za 18 postotnih bodova.

Tim s kineskih sveučilišta (autori: Yijun Lu, Rui Ye, Yuwen Du, Jiajun Wang, Songhua Liu, Siheng Chen) objavio je 6. svibnja 2026. rad pod oznakom arXiv:2605.05191 u kojem predstavlja LongSeeker, agent za dugotrajno pretraživanje koji se temelji na okviru Context-ReAct.

Pet dinamičkih operacija nad radnim kontekstom

Glavna ideja Context-ReAct okvira je da agent ne smije tretirati cijelu trajektoriju jednako. Rad navodi da se “dijelovi trajektorije održavaju na različitim razinama detalja” ovisno o relevantnosti za trenutni korak. Okvir uvodi pet operacija nad radnim kontekstom:

Skip — preskakanje irelevantnih koraka.
Compress — sažimanje dužih segmenata u kraće reprezentacije.
Rollback — povratak u raniji čvor trajektorije ako trenutna grana ne vodi cilju.
Snippet — zadržavanje konkretnog isječka iz dohvaćene stranice.
Delete — uklanjanje pogrešnih ili zastarjelih sadržaja iz konteksta.

Svaka od ovih operacija agenta čuva od preljeva konteksta — kroničnog problema agentskih sustava koji rade dulji niz koraka.

Performanse i usporedba

LongSeeker je fino podešen na Qwen3-30B-A3B osnovi, koristeći 10.000 sintetiziranih trajektorija. Na BrowseComp benchmarku postiže 61,5%, a na kineskoj varijanti BrowseComp-ZH 62,5%. Konkurenti zaostaju značajno: Tongyi DeepResearch ostvaruje 43,2% odnosno 46,7%, dok AgentFold dolazi do 36,2% i 47,3%. Razlika od preko 18 postotnih bodova nad Tongyi DeepResearchom najveći je raspon koji se trenutno bilježi na BrowseCompu.

Zašto je ovo važno?

Većina ReAct-baziranih agenata pati od linearnog rasta konteksta — svaki korak dodaje sirovi sadržaj prethodnih koraka. Context-ReAct uvodi eksplicitno upravljanje kontekstom kao prvi razred operacija, sličan tome kako programer upravlja memorijom. To otvara put dugotrajnim agentskim sesijama koje nisu ograničene veličinom prozora osnovnog modela.

Česta pitanja

Što je BrowseComp?

BrowseComp je benchmark za agente koji rješavaju složene web-pretraživačke zadatke s dugim horizontom — više koraka, više stranica, integracija nalaza u finalni odgovor.

Koje su pet operacija u Context-ReAct okviru?

Skip, Compress, Rollback, Snippet i Delete — operacije koje agentu omogućuju da prilagodno preoblikuje radni kontekst tijekom dugotrajnog zadatka.

Kako se LongSeeker uspoređuje s ostalima?

Postiže 61,5% na BrowseCompu i 62,5% na BrowseComp-ZH, naspram 43,2% / 46,7% za Tongyi DeepResearch i 36,2% / 47,3% za AgentFold.

arXiv:2605.05191: LongSeeker s Context-ReAct okvirom postiže 61,5% na BrowseCompu

Pet dinamičkih operacija nad radnim kontekstom

Performanse i usporedba

Zašto je ovo važno?

Česta pitanja

Izvori

Povezane vijesti