arXiv:2605.31584: LongTraceRL uči dugokontekstno zaključivanje iz tragova search-agenata
LongTraceRL je novi pristup učenja podržavanjem za dugokontekstno zaključivanje. Gradi trening podatke iz tragova search-agenata s tieranim distraktorima i koristi nagrade po kriterijima uz nadzor procesa na razini entiteta, postižući dosljedna poboljšanja na pet benchmarka za modele od 4 do 30 milijardi parametara.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Rad arXiv:2605.31584 predstavlja LongTraceRL, metodu učenja podržavanjem (reinforcement learning, RL) koja rješava izazov dugokontekstnog zaključivanja — situacije u kojoj veliki jezični modeli teško pronalaze i povezuju ključne informacije usred velike količine ometajućeg sadržaja.
Što je dugokontekstno zaključivanje?
Dugokontekstno zaključivanje znači da model mora donijeti zaključak na temelju vrlo dugog ulaza, primjerice više dokumenata odjednom. Problem je što relevantni podaci često budu “razrijeđeni” među brojnim nevažnim odlomcima. LongTraceRL koristi RL s provjerljivim nagradama (RLVR), čime nadilazi pristupe ograničene slabim distraktorima i rijetkim signalima povratne informacije.
Kako nastaju trening podaci?
Podaci se grade iz tragova search-agenata (trajectories) uz dvije razine distraktora. Prvu čine dokumenti koje je agent otvorio, ali ih nije citirao — oni su visoko zbunjujući jer su izgledali relevantno. Drugu čine dokumenti koji su se pojavili u rezultatima pretrage, ali ih agent nikad nije otvorio, što ih čini nisko zbunjujućima. Takav tierani pristup nadmašuje nasumično uzorkovanje ili konstrukciju iz jedne pretrage.
Što su rubric rewards?
Rubric rewards (nagrade po kriterijima) koriste zlatne entitete duž svakog lanca zaključivanja kao fini nadzor procesa na razini entiteta. To omogućuje vođenje međukoraka, a ne samo provjeru konačnog odgovora. Sustav primjenjuje strategiju samo-pozitivnih nagrada: nagrađuje se kvaliteta zaključivanja samo kod točnih odgovora, čime se sprječava “reward hacking”.
Kakvi su rezultati?
Testiranje obuhvaća pet dugokontekstnih benchmarka i modele veličine od 4 do 30 milijardi parametara. LongTraceRL pokazuje dosljedna poboljšanja u odnosu na jake polazne metode, potičući temeljito i dokazima utemeljeno zaključivanje. Materijali su dostupni u autorskom GitHub repozitoriju.
Česta pitanja
- Što su tierani distraktori?
- To su dvije razine ometajućih dokumenata: oni koje je agent otvorio ali nije citirao (visoka zbunjivost) i oni koji su se pojavili u rezultatima ali nisu otvoreni (niska zbunjivost).
- Na koliko benchmarka je testiran?
- LongTraceRL je testiran na pet dugokontekstnih benchmarka, na modelima veličine od 4 do 30 milijardi parametara, uz dosljedna poboljšanja.
Povezane vijesti
GitHub: interni analitički agent Qubot smanjio vrijeme rješavanja upita za oko 66 posto
NVIDIA: partneri na Cannes Lions 2026 pokazali agentski AI za marketing, Criteo udvostručio brzinu treninga na Blackwellu
Anthropic: Project Fetch — faza dva pokazuje 20× brži robotizirani rad uz 10× manje koda