HuggingFace objavio Ecom-RLVE-Gym: 8 okruženja i 12-osni kurikulum za treniranje e-commerce agenata uz pojačano učenje
Owlgebra AI tim objavio je 16. travnja 2026. na HuggingFace blogu projekt Ecom-RLVE-Gym — otvoreni framework s 8 verifikabilnih okruženja za e-commerce razgovorne agente i algoritamskom nagradom umjesto LLM-sudca. Sustav koristi katalog od 2 milijuna proizvoda, Qwen 3 8B model i 12-osni adaptivni kurikulum koji agentu poetapno povećava težinu zadataka, kao odgovor na ograničenja supervizornog fine-tuninga u složenim višekorakim tokovima.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Owlgebra AI tim objavio je 16. travnja 2026. na HuggingFace blogu projekt Ecom-RLVE: Adaptive Verifiable Environments for E-Commerce Conversational Agents. Rad je nastao na PyTorch OpenEnv Hackathonu u Cerebral Valley-u, a potpisuju ga Rahul Bajaj, Jaya Nupur, Anuj Garg, Ben Burtenshaw i sedam drugih suradnika.
Što je problem koji rješava?
Autori polaze od zapažanja da tečnost jezika ne jamči uspješnost zadatka — agent može imati uvjerljivu konverzaciju, a svejedno promašiti cilj kupovine. Supervizorni fine-tuning (SFT) ne može pokriti ogromnu kombinaciju ograničenja i višekoraka u stvarnoj e-trgovini: različite varijante proizvoda, nedostupne količine, zahtjeve za klarifikacijama, povrate, politike trgovine. Njihovo rješenje je RLVR — Reinforcement Learning with Verifiable Rewards — u kojem se nagrada ne računa ocjenom LLM-sudca nego deterministički provjerava spram očekivanog stanja košarice.
Kako funkcionira Ecom-RLVE-Gym?
Gym sadrži 8 verifikabilnih okruženja: otkrivanje proizvoda, zamjena, slaganje košarice, povrati, praćenje narudžbe, pitanja o politikama, planiranje paketa i višenamjerne sesije. Težina svakog scenarija kontrolira se duž 12 neovisnih osi — ograničenja, izostavljanja od strane korisnika, distraktori u katalogu, iscrpljenost zalihe, budžet tokena, šum na ulazu, kontekstni prekidi, dubina pretraga, povijest narudžbi, složenost politika i drugo. Adaptive curriculum postupno raste (shema C1 ⊂ C2 ⊂ C4 ⊂ C8) čime se izbjegava saturacija i starvation.
Ključna inovacija je algoritamska verifikacija nagrade. Umjesto LLM-a koji ocjenjuje ishod, sustav provjerava kompozitni ključ (product_id, variant_id, qty) — stvarno stanje košarice naspram očekivanog. Nagradna funkcija kombinira F1 metriku, efikasnost i kaznu za halucinacije.
Tehnički detalji treniranja
Trening je proveden na Qwen 3 8B modelu uz DAPO algoritam s G=8 rolloutova i learning rateom 1e-5. User simulator je Qwen 3.5 (9,7B) koji strateški izostavlja dijelove upita kako bi prisilio agenta na klarifikacijska pitanja. Katalog ima 2 milijuna proizvoda indeksiranih FAISS-om uz embeddinge Alibaba-NLP/gte-modernbert-base (768 dimenzija). Nakon 300 koraka treninga autori izvještavaju o progresivnom napretku kroz razine težine — što potvrđuje tezu da skaliranje okruženja (a ne samo modela) donosi mjerljive pomake i u specijalističkim zadacima.
Sve je javno: kod je na GitHubu (owlgebra-ai/EcomRLVE-Gym), dataset na HuggingFaceu (owlgebra-ai/Amazebay-catalog-2M) i interaktivan demo za testiranje u pregledniku. Rad je za sada najopsežniji otvoreni benchmark za RL trening e-commerce razgovornih agenata.
Česta pitanja
- Što je RLVR i zašto je potreban u e-trgovini?
- RLVR (Reinforcement Learning with Verifiable Rewards) je pojačano učenje u kojem se nagrada ne temelji na ocjeni LLM-sudca, nego na deterministički provjerljivom ishodu — na primjer, je li proizvod koji je agent dodao u košaricu točno onaj koji korisnik traži. Potreban je jer supervizorni fine-tuning ne može skalirati na kombinatorički broj ograničenja i višekoraka koji postoje u stvarnim kupovinama.
- Kakva su okruženja u Ecom-RLVE-Gymu?
- Osam verifikabilnih scenarija: otkrivanje proizvoda, zamjena, slaganje košarice, povrati, praćenje narudžbe, pitanja o politikama, planiranje paketa i višenamjerne sesije. Težina se kontrolira duž 12 neovisnih osi kao što su ograničenja, izostavljanja, distraktori, iscrpljene zalihe i složenost politika.
- Je li kod i dataset javno dostupan?
- Da. Kod je objavljen na GitHubu pod repozitorijem owlgebra-ai/EcomRLVE-Gym, katalog od 2,05 milijuna proizvoda dostupan je kao dataset owlgebra-ai/Amazebay-catalog-2M, a modeli su dio WUFUS kolekcije na HuggingFaceu.
Povezane vijesti
arXiv:2605.22502: Kompiliranjem agentskih workflowa u LLM težine postiže se near-frontier kvaliteta uz 100 puta nižu cijenu
arXiv:2605.22794: MOSS pokazuje agente koji se sami unapređuju mijenjajući vlastiti izvorni kod
arXiv:2605.22535: TerminalWorld benchmark mjeri LLM agente na stvarnim Linux terminal zadacima bez simulacije