EnvFactory: RL trening tool-use agenata s 5× manjim skupom okruženja

EnvFactory je novi okvir koji automatski sintetizira izvršna okruženja za trening tool-use agenata. Na Qwen3 modelima postiže +15% na BFCLv3 i +8.6% na MCP-Atlas benchmarku koristeći svega 85 verificiranih okruženja — pet puta manje od usporednih pristupa.

Što je EnvFactory i zašto je važan?

EnvFactory je novi okvir za automatsku sintezu izvršnih okruženja namijenjen treniranju tool-use agenata — AI sustava koji uče koristiti vanjske alate i API-je. Istraživači s više azijskih sveučilišta riješili su dva kronična problema u ovom području: nedostatak skalabilnih okruženja za izvršavanje i oskudicu realnih trening podataka koji odražavaju implicitno ljudsko razmišljanje.

Sustav autonomno kreira i verificira stateful alate iz autentičnih izvora, a zatim generira višekoračne trajektorije treninga koje odražavaju prirodne obrasce ljudskih upita — uključujući SFT (supervised fine-tuning) i RL (reinforcement learning) trajektorije.

Kako se mjeri uspjeh?

Za evaluaciju koriste dva ključna benchmarka: BFCLv3 (Berkeley Function Calling Leaderboard v3), koji mjeri sposobnost modela da točno poziva funkcije i alate u raznim scenarijima, te MCP-Atlas, skup testova usmjeren na Model Context Protocol — standardizirani protokol za spajanje AI agenata s vanjskim servisima.

Na Qwen3-seriji modela EnvFactory postiže +15% na BFCLv3 i +8.6% na MCP-Atlas. Konverzacijski benchmarci τ²-Bench i VitaBench bilježe dodatnih +6%.

Peterostruka učinkovitost — je li to pravi pomak?

Ono što odvaja EnvFactory od konkurencije nije samo točnost, nego efikasnost: koristi svega 85 verificiranih okruženja u 7 domena, što je otprilike 5× manje od usporednih pristupa. Iz toga nastaje 2.575 trening trajektorija. Topološki osviješteno uzorkovanje i kalibrirana dorada trajektorija čine trening robusnijim bez eksponencijalnog rasta podataka. Za industriju to znači: bolji agenti, niži trošak izgradnje trening infrastrukture.

Česta pitanja

Što je EnvFactory i čemu služi?

EnvFactory je okvir koji automatski kreira i verificira stateful alate iz autentičnih izvora, a zatim generira višekoračne trening trajektorije za tool-use agente — AI sustave koji uče pozivati vanjske alate i API-je.

Koliko je EnvFactory učinkovitiji od dosadašnjih pristupa?

Koristi svega 85 verificiranih okruženja u 7 domena — otprilike 5× manje od usporednih pristupa — i iz toga generira 2.575 trening trajektorija uz poboljšanje od +15% na BFCLv3 benchmarku.

Na kojim benchmarkovima je EnvFactory validiran?

Evaluacija je provedena na BFCLv3 (Berkeley Function Calling Leaderboard), MCP-Atlas skupu testova za Model Context Protocol, te konverzacijskim benchmarkovima τ²-Bench i VitaBench.

arXiv:2605.18703: EnvFactory – RL trening agenata za alate s 5× manjim skupom okruženja

Što je EnvFactory i zašto je važan?

Kako se mjeri uspjeh?

Peterostruka učinkovitost — je li to pravi pomak?

Česta pitanja

Izvori

Povezane vijesti