HuggingFace objavio Ecom-RLVE-Gym: 8 okruženja i 12-osni kurikulum za treniranje e-commerce agenata uz pojačano učenje
Zašto je bitno
Owlgebra AI tim objavio je 16. travnja 2026. na HuggingFace blogu projekt Ecom-RLVE-Gym — otvoreni framework s 8 verifikabilnih okruženja za e-commerce razgovorne agente i algoritamskom nagradom umjesto LLM-sudca. Sustav koristi katalog od 2 milijuna proizvoda, Qwen 3 8B model i 12-osni adaptivni kurikulum koji agentu poetapno povećava težinu zadataka, kao odgovor na ograničenja supervizornog fine-tuninga u složenim višekorakim tokovima.
Owlgebra AI tim objavio je 16. travnja 2026. na HuggingFace blogu projekt Ecom-RLVE: Adaptive Verifiable Environments for E-Commerce Conversational Agents. Rad je nastao na PyTorch OpenEnv Hackathonu u Cerebral Valley-u, a potpisuju ga Rahul Bajaj, Jaya Nupur, Anuj Garg, Ben Burtenshaw i sedam drugih suradnika.
Što je problem koji rješava?
Autori polaze od zapažanja da tečnost jezika ne jamči uspješnost zadatka — agent može imati uvjerljivu konverzaciju, a svejedno promašiti cilj kupovine. Supervizorni fine-tuning (SFT) ne može pokriti ogromnu kombinaciju ograničenja i višekoraka u stvarnoj e-trgovini: različite varijante proizvoda, nedostupne količine, zahtjeve za klarifikacijama, povrate, politike trgovine. Njihovo rješenje je RLVR — Reinforcement Learning with Verifiable Rewards — u kojem se nagrada ne računa ocjenom LLM-sudca nego deterministički provjerava spram očekivanog stanja košarice.
Kako funkcionira Ecom-RLVE-Gym?
Gym sadrži 8 verifikabilnih okruženja: otkrivanje proizvoda, zamjena, slaganje košarice, povrati, praćenje narudžbe, pitanja o politikama, planiranje paketa i višenamjerne sesije. Težina svakog scenarija kontrolira se duž 12 neovisnih osi — ograničenja, izostavljanja od strane korisnika, distraktori u katalogu, iscrpljenost zalihe, budžet tokena, šum na ulazu, kontekstni prekidi, dubina pretraga, povijest narudžbi, složenost politika i drugo. Adaptive curriculum postupno raste (shema C1 ⊂ C2 ⊂ C4 ⊂ C8) čime se izbjegava saturacija i starvation.
Ključna inovacija je algoritamska verifikacija nagrade. Umjesto LLM-a koji ocjenjuje ishod, sustav provjerava kompozitni ključ (product_id, variant_id, qty) — stvarno stanje košarice naspram očekivanog. Nagradna funkcija kombinira F1 metriku, efikasnost i kaznu za halucinacije.
Tehnički detalji treniranja
Trening je proveden na Qwen 3 8B modelu uz DAPO algoritam s G=8 rolloutova i learning rateom 1e-5. User simulator je Qwen 3.5 (9,7B) koji strateški izostavlja dijelove upita kako bi prisilio agenta na klarifikacijska pitanja. Katalog ima 2 milijuna proizvoda indeksiranih FAISS-om uz embeddinge Alibaba-NLP/gte-modernbert-base (768 dimenzija). Nakon 300 koraka treninga autori izvještavaju o progresivnom napretku kroz razine težine — što potvrđuje tezu da skaliranje okruženja (a ne samo modela) donosi mjerljive pomake i u specijalističkim zadacima.
Sve je javno: kod je na GitHubu (owlgebra-ai/EcomRLVE-Gym), dataset na HuggingFaceu (owlgebra-ai/Amazebay-catalog-2M) i interaktivan demo za testiranje u pregledniku. Rad je za sada najopsežniji otvoreni benchmark za RL trening e-commerce razgovornih agenata.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
Anthropic: Memory za Managed Agents u javnoj beti — AI agenti koji pamte kontekst između sesija
GitHub: Cloud agent sesije sada dostupne izravno iz issues i project pogleda
ArXiv SWE-chat — dataset stvarnih interakcija developera s AI coding agentima u produkciji