Što je RLVR i zašto je potreban u e-trgovini?

RLVR (Reinforcement Learning with Verifiable Rewards) je pojačano učenje u kojem se nagrada ne temelji na ocjeni LLM-sudca, nego na deterministički provjerljivom ishodu — na primjer, je li proizvod koji je agent dodao u košaricu točno onaj koji korisnik traži. Potreban je jer supervizorni fine-tuning ne može skalirati na kombinatorički broj ograničenja i višekoraka koji postoje u stvarnim kupovinama.

Je li kod i dataset javno dostupan?

Da. Kod je objavljen na GitHubu pod repozitorijem owlgebra-ai/EcomRLVE-Gym, katalog od 2,05 milijuna proizvoda dostupan je kao dataset owlgebra-ai/Amazebay-catalog-2M, a modeli su dio WUFUS kolekcije na HuggingFaceu.

HuggingFace objavio Ecom-RLVE-Gym: 8 okruženja i 12-osni kurikulum za treniranje e-commerce agenata uz pojačano učenje

Q: Kakva su okruženja u Ecom-RLVE-Gymu?

Osam verifikabilnih scenarija: otkrivanje proizvoda, zamjena, slaganje košarice, povrati, praćenje narudžbe, pitanja o politikama, planiranje paketa i višenamjerne sesije. Težina se kontrolira duž 12 neovisnih osi kao što su ograničenja, izostavljanja, distraktori, iscrpljene zalihe i složenost politika.

Owlgebra AI tim objavio je 16. travnja 2026. na HuggingFace blogu projekt Ecom-RLVE: Adaptive Verifiable Environments for E-Commerce Conversational Agents. Rad je nastao na PyTorch OpenEnv Hackathonu u Cerebral Valley-u, a potpisuju ga Rahul Bajaj, Jaya Nupur, Anuj Garg, Ben Burtenshaw i sedam drugih suradnika.

Što je problem koji rješava?

Autori polaze od zapažanja da tečnost jezika ne jamči uspješnost zadatka — agent može imati uvjerljivu konverzaciju, a svejedno promašiti cilj kupovine. Supervizorni fine-tuning (SFT) ne može pokriti ogromnu kombinaciju ograničenja i višekoraka u stvarnoj e-trgovini: različite varijante proizvoda, nedostupne količine, zahtjeve za klarifikacijama, povrate, politike trgovine. Njihovo rješenje je RLVR — Reinforcement Learning with Verifiable Rewards — u kojem se nagrada ne računa ocjenom LLM-sudca nego deterministički provjerava spram očekivanog stanja košarice.

Kako funkcionira Ecom-RLVE-Gym?

Gym sadrži 8 verifikabilnih okruženja: otkrivanje proizvoda, zamjena, slaganje košarice, povrati, praćenje narudžbe, pitanja o politikama, planiranje paketa i višenamjerne sesije. Težina svakog scenarija kontrolira se duž 12 neovisnih osi — ograničenja, izostavljanja od strane korisnika, distraktori u katalogu, iscrpljenost zalihe, budžet tokena, šum na ulazu, kontekstni prekidi, dubina pretraga, povijest narudžbi, složenost politika i drugo. Adaptive curriculum postupno raste (shema C1 ⊂ C2 ⊂ C4 ⊂ C8) čime se izbjegava saturacija i starvation.

Ključna inovacija je algoritamska verifikacija nagrade. Umjesto LLM-a koji ocjenjuje ishod, sustav provjerava kompozitni ključ (product_id, variant_id, qty) — stvarno stanje košarice naspram očekivanog. Nagradna funkcija kombinira F1 metriku, efikasnost i kaznu za halucinacije.

Tehnički detalji treniranja

Trening je proveden na Qwen 3 8B modelu uz DAPO algoritam s G=8 rolloutova i learning rateom 1e-5. User simulator je Qwen 3.5 (9,7B) koji strateški izostavlja dijelove upita kako bi prisilio agenta na klarifikacijska pitanja. Katalog ima 2 milijuna proizvoda indeksiranih FAISS-om uz embeddinge Alibaba-NLP/gte-modernbert-base (768 dimenzija). Nakon 300 koraka treninga autori izvještavaju o progresivnom napretku kroz razine težine — što potvrđuje tezu da skaliranje okruženja (a ne samo modela) donosi mjerljive pomake i u specijalističkim zadacima.

Sve je javno: kod je na GitHubu (owlgebra-ai/EcomRLVE-Gym), dataset na HuggingFaceu (owlgebra-ai/Amazebay-catalog-2M) i interaktivan demo za testiranje u pregledniku. Rad je za sada najopsežniji otvoreni benchmark za RL trening e-commerce razgovornih agenata.

HuggingFace objavio Ecom-RLVE-Gym: 8 okruženja i 12-osni kurikulum za treniranje e-commerce agenata uz pojačano učenje

Što je problem koji rješava?

Kako funkcionira Ecom-RLVE-Gym?

Tehnički detalji treniranja

Izvori

Povezane vijesti