Što je reward hacking i kako ga prepoznati?

Reward hacking nastaje kada agent optimizira metriku nagrade bez stvarnog rješavanja zadatka (Goodhartov zakon u RL-u). Sigurni signali: trening nagrada raste dok validacijska ostaje ravna, ili bazni model postiže višu trening nagradu od vanjske evaluacije.

Zašto su binarne nagrade problematične u multi-turn RL-u?

Ako svi rollout-i u grupi dobiju identičnu ocjenu (svi nula ili svi jedan), gradijent nestaje i trening stagnira. Guste (dense) nagradne funkcije koje daju parcijalni kredit za napredak prema rješenju djelotvorno rješavaju ovaj problem.

SageMaker multi-turn RL: nagrada ispred algoritma

Q: Kako odrediti max_turns za multi-turn agenta?

AWS preporučuje max_turns = ceil(N × 1,5) gdje N odgovara tipičnom broju poteza koje vješt čovjek treba za isti zadatak. Ako više od 5 posto odgovora doseže granicu tokena po potezu, treba povećati sampling_max_tokens.

AWS SageMaker AI vodič za multi-turn reinforcement learning stavlja kvalitetu nagradne funkcije i neovisnost evaluacije ispred algoritmičkog izbora. Guste nagrade sprječavaju kolaps varijance, a reward hacking nastaje kad agent optimizira metriku bez rješavanja stvarnog zadatka. Na SOP-Bench benchmarku ispravno postavljeni trening postigao je 13 posto bolji Task Success Rate i oko 16 posto bolju točnost po polju.

AWS je objavio sveobuhvatan vodič za multi-turn reinforcement learning u Amazon SageMaker AI platformi. Fokus nije na egzotičnim algoritmima niti na skaliranju infrastrukture — centralna teza dokumenta je jednostavna i izravno protutočna uobičajenim pretpostavkama: kvaliteta nagradne funkcije i neovisnost evaluacije odlučuju hoće li trening dati koristan agent, mnogo više od izbora RL algoritma ili konfiguracije hiperparametara.

Nagrada i evaluacija važniji su od algoritma

Multi-turn reinforcement learning razlikuje se od standardnog RL-a po tome što agent mora donositi sekvencijalne odluke kroz više poteza, a kontekst raste s brojem interakcija. SageMaker AI za to nudi modularno sučelje agenta i okruženja, asinkrono prikupljanje rollout podataka s kontroliranim off-policy zastarenjem, te nativne algoritme: PPO, CISPO i importance-sampling gubitke. Platforma pruža i sequence-extension trening za upravljanje dugim trajektorijama, te MLflow integraciju za praćenje na razini pojedinog poteza.

No vodič jasno stavlja do znanja: nema algoritmičke kratice koja kompenzira loše dizajniranu nagradu ili nedovoljno nezavisnu evaluaciju. Oba elementa moraju biti ispravno postavljena prije nego što trening uopće počne. AWS definira jasnu hijerarhiju prioriteta: prikupi i podijeli reprezentativne podatke, izgradi hermetično okruženje, definiraj nezavisni test-set, uspostavi baseline performans — i tek potom dizajniraj nagradu i pokreni trening.

Koje su najčešće zamke u dizajnu nagradne funkcije?

Prva zamka je Goodhartov zakon u kontekstu RL-a: agent koji optimizira metriku nagrade bez rješavanja stvarnog zadatka. AWS dokument navodi konkretne pokazatelje reward hackinga — ako trening nagrada raste dok validacijska ostaje ravna, ili ako bazni model postiže višu nagradu na trening skupu nego što pokazuje vanjska evaluacija, radi se o znaku da reward parser propušta slučajeve koje evaluacijski kriterij strože ocjenjuje. Rješenje je postrožiti parser i provesti offline reviziju novih rollout-a.

Druga zamka je binarna nagrada. Ako svi rollout-i u grupi dobiju identičnu ocjenu — svi nula ili svi jedan — gradijent nestaje, a trening stagnira. Vodič preporučuje guste (dense) nagradne funkcije koje daju parcijalni kredit za napredak prema rješenju čak i kad finalni odgovor nije točan. Za dijagnostiku treba pratiti rollout/reward/zero_frac — udio trajektorija s nultom nagradom — i smanjiti group_size s 8 na 4 ako je udio previsok.

Treća zamka je self-evaluacija: sustav koji sam sebi mjeri uspjeh ne može detektirati vlastito reward hakiranje. AWS naglašava obavezu neovisne vanjske evaluacije na izdvojenom test skupu, s kriterijima koji su strožiji od onih korištenih u trening nagradi. Razlika između mjerenja generalizacije i mjerenja neovisnosti od reward hackinga ključna je distinkcija koju vodič eksplicitno naglašava.

Upravljanje kontekstom u višestrukim potezima

Multi-turn agenti imaju specifičan problem koji ne postoji u jednopoteznom RL-u: kontekst raste s brojem interakcija i može postati računalno preskup ili semantički zastarao. AWS preporučuje postavljanje max_turns = ceil(N × 1,5) gdje N odgovara tipičnom broju poteza koje vješt čovjek treba za isti zadatak. Ako više od 5 posto odgovora doseže granicu tokena po potezu, treba povećati sampling_max_tokens jer clustering odgovora na granici ukazuje na strukturno ograničenje.

Za praćenje zdravlja treninga ključne su četiri metrike: udio trajektorija s nultom nagradom (zero_frac), udio bačenih rollout grupa zbog uniformnih ocjena (zero_adv_groups), te pass-rate na validacijskom skupu pri jednom pokušaju (pass_k_1) i osam pokušaja (pass_k_8). Pad ili stagnacija pass_k_1 dok zero_adv_groups ostaje visok signal je da treba smanjiti group_size ili povećati diversifikaciju rollout-a.

Posebna opasnost je kolaps politike: nagli pad nagrade prema nuli nakon 40 do 80 koraka treninga. AWS preporučuje postavljanje async_config.max_steps_off_policy = 0 i eventualni prelazak s CISPO-a na PPO. Stabilizacija obično nastupa unutar 25 do 50 koraka od intervencije.

Konkretni rezultati i alati

AWS vodič ilustrira principe kroz SOP-Bench benchmark za inspekciju zrakoplova. Inicijalni pokušaji treninga — s paralelnim zadacima, neusklađenim one-shot primjerima i pogrešnim formatom izlaznih tagova — dali su nestabilne i loše rezultate. Nakon ciljanih korekcija (fokus na jedan zadatak, usklađeni primjeri, ispravni izlazni tagovi), fine-tuned model poboljšao je Task Success Rate za 13 posto i točnost po polju za oko 16 posto.

Za implementaciju, SageMaker nudi MultiTurnRLTrainer i MultiTurnRLEvaluator kao high-level apstrakcije, SOP-Bench dataset za standardizirani benchmarking, te MLflow integraciju za praćenje trajektorija na razini svakog pojedinog poteza. Za produkcijsko deployanje treniranih agenata preporučuje se Bedrock AgentCore.

Vodič je namijenjen ML inženjerima koji grade agente za stvarne zadatke — od rezolucije korisničkih zahtjeva do moderacije sadržaja. Temeljni zaključak vrijedi bez obzira na domenu: investicija u valjano hermetično okruženje za trening i stvarno nezavisnu evaluaciju donosi znatno više od iteriranja po algoritmima i hiperparametrima.

AWS SageMaker vodič: u multi-turn RL nagrada i evaluacija važniji od algoritma

Nagrada i evaluacija važniji su od algoritma

Koje su najčešće zamke u dizajnu nagradne funkcije?

Upravljanje kontekstom u višestrukim potezima

Konkretni rezultati i alati

Česta pitanja

Izvori

Povezane vijesti