🟢 🤝 Agenti Objavljeno: · 3 min čitanja ·

TRIAGE: Kako dodijeliti zasluge pravim tokenima u agentnom pojačajnom učenju

Editorial ilustracija: dodjeljivanje zasluga po ulogama u agentskom pojačanom učenju TRIAGE metodom

Istraživači su predložili TRIAGE — okvir koji klasificira segmente trajektorije u četiri semantičke uloge i svakoj dodjeljuje drugačiji signal nagrade, za razliku od GRPO-a koji sve tokene tretira jednako. Na ALFWorld, Search-QA i WebShop benchmarkovima TRIAGE smanjuje broj akcija prema okolini za 10,4 do 14,8 posto.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Svaki puta kad AI agent rješava zadatak, generira trajektoriju — niz akcija, poziva alata i međurezultata. Standardni algoritmi pojačajnog učenja poput GRPO taj niz tretiraju uniformno: ako je ishod uspješan, svi tokeni dobivaju pozitivnu prednost; ako nije, svi dobivaju negativnu. Problem je što ta pretpostavka nije točna.

Zašto uniformna prednost stvara loše poticaje

Zamislite agenta koji tri puta istražuje slijepu ulicu, ali na četvrtom pokušaju uspijeva. GRPO nagrađuje sve četiri sekvence jednako, uključujući ona tri korisna istraživanja koja su pomogla u pronalaženju rješenja — ali i puno balastnog koda koji ne doprinosi ničemu. U neuspjelom runu, naprotiv, kaznit će i onu sekvencu istraživanja koja je bila na dobrom tragu.

TRIAGE (Role-Typed Credit Assignment for Agentic RL), rad objavljen 30. lipnja 2026. na arXiv-u (2606.32017), uvodi semantičku os uz postojeći ishodni signal.

Četiri uloge, četiri razine zasluge

LLM-sudac s fiksiranom strukturom evaluira svaki segment trajektorije i dodjeljuje mu jednu od četiri uloge:

1. Odlučan napredak — akcije koje izravno pomiču agenta prema cilju. Nagrađuju se proporcionalno doprinosu.

2. Korisno istraživanje — akcije koje ne vode izravno uspjehu, ali eliminiraju slijepe ulice ili prikupljaju informacije relevantne za daljnji tijek. U standardnom GRPO-u kažnjene u neuspjelim runovima; u TRIAGE-u prepoznate kao pozitivan doprinos.

3. Infrastruktura bez napretka — potrebne, ali neutralne akcije: inicijalizacija, parsiranje, formatiranje izlaza. Ni nagrađene ni kažnjene izvan proporcionalnog udjela u ishodu.

4. Regresija — akcije koje agent pomiču dalje od cilja, poništavaju prethodni napredak ili uvode greške. Kažnjene čak i kada je konačni ishod uspješan.

Dodjela uloga-uvjetovanih nagrada odvija se prema fiksiranim pravilima — nije produkt ad hoc heuristike. Autori dokazuju da takva dodjela predstavlja optimalnu korekciju na razini segmenta izrazljivu iz uloga, definiranu kao projekciju residuala prednosti po segmentu na varijablu uloge.

Rezultati na tri benchmarka

TRIAGE je testiran na ALFWorld (navigacija i manipulacija u tekstualnoj kućnoj okolini), Search-QA (traženje odgovora pretragom weba) i WebShop (kupovina na simuliranom e-commerce sučelju).

Ključni nalaz: na dovršenim rolloutima TRIAGE smanjuje broj akcija prema okolini za 10,4% do 14,8% u usporedbi s GRPO-om, uz istovremeno povišene stope uspjeha. Agent s istim modelom rješava zadatke u manje koraka — što je u praksi ekvivalentno nižim troškovima i kraćem vremenu odgovora.

Što kaže ablacijska studija?

Autori su izolirali doprinos svake od četiri uloge. Detekcija regresije unutar uspješnih trajektorija pokazala se dominantnim faktorom poboljšanja. To je kontraintuitivan nalaz: najvažnije nije nagraditi dobro istraživanje, nego kazniti loše akcije čak i kad ishod bude pozitivan.

Kreditiranje korisnog istraživanja donijelo je konzistentna, ali sekundarna poboljšanja — posebno izražena u okruženjima poput WebShopa gdje je prikupljanje informacija o proizvodu ključno za ispravnu odluku.

Pozicioniranje unutar literature

TRIAGE se ne mijenja ciljni model niti uvodi skupi dodatni trening — LLM-sudac može biti manji, specijalizirani model. Ishodni signal (uspjeh/neuspjeh epizode) ostaje primarni optimizator; TRIAGE dodaje procesni sloj koji redistribuira taj signal unutar trajektorije prema semantičkom doprinosu segmenta.

Za praktičare koji rade s agentima koji izvode višekorake zadatke u skupim okruženjima — web, kod, baze podataka — smanjenje akcija od više od 10 posto direktno se prevodi u operativnu uštedu. Rad je dostupan na arXiv-u od danas.

Česta pitanja

Što je konkretni problem koji TRIAGE rješava?
Standardni GRPO dodjeljuje jednaku prednost svim tokenima u trajektoriji. To kažnjava korisno istraživanje u neuspjelim runovima i nagrađuje balast u uspješnima — TRIAGE to ispravlja semantičkom klasifikacijom segmenata.
Tko procjenjuje kojoj ulozi pripada koji segment trajektorije?
Strukturirani LLM-sudac evaluira svaki segment i dodjeljuje mu jednu od četiri uloge: odlučan napredak, korisno istraživanje, infrastruktura bez napretka ili regresija.
Koji je dominantni doprinos poboljšanju performansi?
Ablacijska studija pokazala je da je detekcija regresije unutar uspješnih trajektorija najvažniji pojedinačni faktor — kažnjavanje regresivnih akcija čak i kad je ishod pozitivan donosi najveći dobitak.