LongTraceRL za dugokontekstno zaključivanje

LongTraceRL je novi pristup učenja podržavanjem za dugokontekstno zaključivanje. Gradi trening podatke iz tragova search-agenata s tieranim distraktorima i koristi nagrade po kriterijima uz nadzor procesa na razini entiteta, postižući dosljedna poboljšanja na pet benchmarka za modele od 4 do 30 milijardi parametara.

Rad arXiv:2605.31584 predstavlja LongTraceRL, metodu učenja podržavanjem (reinforcement learning, RL) koja rješava izazov dugokontekstnog zaključivanja — situacije u kojoj veliki jezični modeli teško pronalaze i povezuju ključne informacije usred velike količine ometajućeg sadržaja.

Što je dugokontekstno zaključivanje?

Dugokontekstno zaključivanje znači da model mora donijeti zaključak na temelju vrlo dugog ulaza, primjerice više dokumenata odjednom. Problem je što relevantni podaci često budu “razrijeđeni” među brojnim nevažnim odlomcima. LongTraceRL koristi RL s provjerljivim nagradama (RLVR), čime nadilazi pristupe ograničene slabim distraktorima i rijetkim signalima povratne informacije.

Kako nastaju trening podaci?

Podaci se grade iz tragova search-agenata (trajectories) uz dvije razine distraktora. Prvu čine dokumenti koje je agent otvorio, ali ih nije citirao — oni su visoko zbunjujući jer su izgledali relevantno. Drugu čine dokumenti koji su se pojavili u rezultatima pretrage, ali ih agent nikad nije otvorio, što ih čini nisko zbunjujućima. Takav tierani pristup nadmašuje nasumično uzorkovanje ili konstrukciju iz jedne pretrage.

Što su rubric rewards?

Rubric rewards (nagrade po kriterijima) koriste zlatne entitete duž svakog lanca zaključivanja kao fini nadzor procesa na razini entiteta. To omogućuje vođenje međukoraka, a ne samo provjeru konačnog odgovora. Sustav primjenjuje strategiju samo-pozitivnih nagrada: nagrađuje se kvaliteta zaključivanja samo kod točnih odgovora, čime se sprječava “reward hacking”.

Kakvi su rezultati?

Testiranje obuhvaća pet dugokontekstnih benchmarka i modele veličine od 4 do 30 milijardi parametara. LongTraceRL pokazuje dosljedna poboljšanja u odnosu na jake polazne metode, potičući temeljito i dokazima utemeljeno zaključivanje. Materijali su dostupni u autorskom GitHub repozitoriju.

Česta pitanja

Što su tierani distraktori?

To su dvije razine ometajućih dokumenata: oni koje je agent otvorio ali nije citirao (visoka zbunjivost) i oni koji su se pojavili u rezultatima ali nisu otvoreni (niska zbunjivost).

Na koliko benchmarka je testiran?

LongTraceRL je testiran na pet dugokontekstnih benchmarka, na modelima veličine od 4 do 30 milijardi parametara, uz dosljedna poboljšanja.

arXiv:2605.31584: LongTraceRL uči dugokontekstno zaključivanje iz tragova search-agenata

Što je dugokontekstno zaključivanje?

Kako nastaju trening podaci?

Što su rubric rewards?

Kakvi su rezultati?

Česta pitanja

Izvori

Povezane vijesti