arXiv:2605.05191: LongSeeker s Context-ReAct okvirom postiže 61,5% na BrowseCompu
Istraživači su predstavili LongSeeker — agent za dugotrajno pretraživanje koji koristi Context-ReAct okvir s pet dinamičkih operacija upravljanja kontekstom. Model postiže 61,5% na BrowseComp benchmarku i nadmašuje Tongyi DeepResearch za 18 postotnih bodova.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Tim s kineskih sveučilišta (autori: Yijun Lu, Rui Ye, Yuwen Du, Jiajun Wang, Songhua Liu, Siheng Chen) objavio je 6. svibnja 2026. rad pod oznakom arXiv:2605.05191 u kojem predstavlja LongSeeker, agent za dugotrajno pretraživanje koji se temelji na okviru Context-ReAct.
Pet dinamičkih operacija nad radnim kontekstom
Glavna ideja Context-ReAct okvira je da agent ne smije tretirati cijelu trajektoriju jednako. Rad navodi da se “dijelovi trajektorije održavaju na različitim razinama detalja” ovisno o relevantnosti za trenutni korak. Okvir uvodi pet operacija nad radnim kontekstom:
- Skip — preskakanje irelevantnih koraka.
- Compress — sažimanje dužih segmenata u kraće reprezentacije.
- Rollback — povratak u raniji čvor trajektorije ako trenutna grana ne vodi cilju.
- Snippet — zadržavanje konkretnog isječka iz dohvaćene stranice.
- Delete — uklanjanje pogrešnih ili zastarjelih sadržaja iz konteksta.
Svaka od ovih operacija agenta čuva od preljeva konteksta — kroničnog problema agentskih sustava koji rade dulji niz koraka.
Performanse i usporedba
LongSeeker je fino podešen na Qwen3-30B-A3B osnovi, koristeći 10.000 sintetiziranih trajektorija. Na BrowseComp benchmarku postiže 61,5%, a na kineskoj varijanti BrowseComp-ZH 62,5%. Konkurenti zaostaju značajno: Tongyi DeepResearch ostvaruje 43,2% odnosno 46,7%, dok AgentFold dolazi do 36,2% i 47,3%. Razlika od preko 18 postotnih bodova nad Tongyi DeepResearchom najveći je raspon koji se trenutno bilježi na BrowseCompu.
Zašto je ovo važno?
Većina ReAct-baziranih agenata pati od linearnog rasta konteksta — svaki korak dodaje sirovi sadržaj prethodnih koraka. Context-ReAct uvodi eksplicitno upravljanje kontekstom kao prvi razred operacija, sličan tome kako programer upravlja memorijom. To otvara put dugotrajnim agentskim sesijama koje nisu ograničene veličinom prozora osnovnog modela.
Česta pitanja
- Što je BrowseComp?
- BrowseComp je benchmark za agente koji rješavaju složene web-pretraživačke zadatke s dugim horizontom — više koraka, više stranica, integracija nalaza u finalni odgovor.
- Koje su pet operacija u Context-ReAct okviru?
- Skip, Compress, Rollback, Snippet i Delete — operacije koje agentu omogućuju da prilagodno preoblikuje radni kontekst tijekom dugotrajnog zadatka.
- Kako se LongSeeker uspoređuje s ostalima?
- Postiže 61,5% na BrowseCompu i 62,5% na BrowseComp-ZH, naspram 43,2% / 46,7% za Tongyi DeepResearch i 36,2% / 47,3% za AgentFold.
Povezane vijesti
arXiv:2605.06177: BioMedArena — toolkit za biomedicinske AI agente s 147 benchmarkova i 75 alata
arXiv:2605.06623: MASPO — automatska optimizacija promptova za multi-agent LLM sustave, ICML 2026
Google DeepMind: AlphaEvolve dostupan kroz Google Cloud, prvi industrijski rezultati