🤖 24 AI
🟢 🤝 Agenti subota, 18. travnja 2026. · 2 min čitanja

HuggingFace objavio Ecom-RLVE-Gym: 8 okruženja i 12-osni kurikulum za treniranje e-commerce agenata uz pojačano učenje

Editorial ilustracija: apstraktno okruženje e-commerce treninga s mrežom proizvoda i staza učenja

Zašto je bitno

Owlgebra AI tim objavio je 16. travnja 2026. na HuggingFace blogu projekt Ecom-RLVE-Gym — otvoreni framework s 8 verifikabilnih okruženja za e-commerce razgovorne agente i algoritamskom nagradom umjesto LLM-sudca. Sustav koristi katalog od 2 milijuna proizvoda, Qwen 3 8B model i 12-osni adaptivni kurikulum koji agentu poetapno povećava težinu zadataka, kao odgovor na ograničenja supervizornog fine-tuninga u složenim višekorakim tokovima.

Owlgebra AI tim objavio je 16. travnja 2026. na HuggingFace blogu projekt Ecom-RLVE: Adaptive Verifiable Environments for E-Commerce Conversational Agents. Rad je nastao na PyTorch OpenEnv Hackathonu u Cerebral Valley-u, a potpisuju ga Rahul Bajaj, Jaya Nupur, Anuj Garg, Ben Burtenshaw i sedam drugih suradnika.

Što je problem koji rješava?

Autori polaze od zapažanja da tečnost jezika ne jamči uspješnost zadatka — agent može imati uvjerljivu konverzaciju, a svejedno promašiti cilj kupovine. Supervizorni fine-tuning (SFT) ne može pokriti ogromnu kombinaciju ograničenja i višekoraka u stvarnoj e-trgovini: različite varijante proizvoda, nedostupne količine, zahtjeve za klarifikacijama, povrate, politike trgovine. Njihovo rješenje je RLVR — Reinforcement Learning with Verifiable Rewards — u kojem se nagrada ne računa ocjenom LLM-sudca nego deterministički provjerava spram očekivanog stanja košarice.

Kako funkcionira Ecom-RLVE-Gym?

Gym sadrži 8 verifikabilnih okruženja: otkrivanje proizvoda, zamjena, slaganje košarice, povrati, praćenje narudžbe, pitanja o politikama, planiranje paketa i višenamjerne sesije. Težina svakog scenarija kontrolira se duž 12 neovisnih osi — ograničenja, izostavljanja od strane korisnika, distraktori u katalogu, iscrpljenost zalihe, budžet tokena, šum na ulazu, kontekstni prekidi, dubina pretraga, povijest narudžbi, složenost politika i drugo. Adaptive curriculum postupno raste (shema C1 ⊂ C2 ⊂ C4 ⊂ C8) čime se izbjegava saturacija i starvation.

Ključna inovacija je algoritamska verifikacija nagrade. Umjesto LLM-a koji ocjenjuje ishod, sustav provjerava kompozitni ključ (product_id, variant_id, qty) — stvarno stanje košarice naspram očekivanog. Nagradna funkcija kombinira F1 metriku, efikasnost i kaznu za halucinacije.

Tehnički detalji treniranja

Trening je proveden na Qwen 3 8B modelu uz DAPO algoritam s G=8 rolloutova i learning rateom 1e-5. User simulator je Qwen 3.5 (9,7B) koji strateški izostavlja dijelove upita kako bi prisilio agenta na klarifikacijska pitanja. Katalog ima 2 milijuna proizvoda indeksiranih FAISS-om uz embeddinge Alibaba-NLP/gte-modernbert-base (768 dimenzija). Nakon 300 koraka treninga autori izvještavaju o progresivnom napretku kroz razine težine — što potvrđuje tezu da skaliranje okruženja (a ne samo modela) donosi mjerljive pomake i u specijalističkim zadacima.

Sve je javno: kod je na GitHubu (owlgebra-ai/EcomRLVE-Gym), dataset na HuggingFaceu (owlgebra-ai/Amazebay-catalog-2M) i interaktivan demo za testiranje u pregledniku. Rad je za sada najopsežniji otvoreni benchmark za RL trening e-commerce razgovornih agenata.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.