Agent-World: skalabilna sinteza okruženja za evoluciju AI agenata iz Renmin Universityja
Agent-World je novi istraživački okvir kineskog Renmin Universityja koji automatski generira tisuće raznovrsnih okruženja za treniranje AI agenata. Zamjenjuje ručno izrađene benchmark-e dinamičkim scenarijima i omogućuje evolucijsko učenje kroz koevoluciju agenta i okoline.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Istraživači s kineskog Renmin Universityja objavili su Agent-World, okvir koji automatski generira raznovrsna okruženja za treniranje AI agenata. Rad s 20 autora nudi alternativu sporoj, ručnoj izradi benchmark-a i predlaže koevoluciju agenta i okoline kao put prema robusnijoj agentnoj inteligenciji.
Zašto su postojeći benchmark-ovi nedovoljni
Većina današnjih agentnih benchmark-a nastaje ručno — istraživači sami definiraju zadatke, alate i evaluacijske kriterije. Takav pristup je skup, spor i slabo pokriva raznolikost scenarija s kojima se agenti (autonomni programi pokretani jezičnim modelima) susreću u stvarnom svijetu. Agenti trenirani na uskom skupu zadataka teško generaliziraju na nove domene, a pokrivenost rubnih slučajeva ostaje ograničena. Agent-World te probleme napada automatizacijom cijelog lanca — od otkrivanja izvora do generiranja provjerljivih zadataka. Time se otvara mogućnost skaliranja treninga na tisuće različitih tema istodobno, što je prije bilo nezamislivo bez velikih ljudskih timova.
Dvije komponente okvira
Agent-World počiva na dvije glavne komponente. Prva je “Environment-Task Discovery” — modul koji autonomno istražuje baze podataka i ekosustave alata kroz tisuće tema stvarnih okruženja i iz njih sintetizira provjerljive zadatke s podesivom razinom težine. Druga komponenta zove se “Self-Evolving Agent Training” i kombinira reinforcement learning (učenje pojačanjem — metoda u kojoj agent uči iz nagrade za svaki potez) u više okruženja s dinamičkom sintezom zadataka. Taj dio automatski identificira nedostatke u vještinama agenta i generira nove zadatke upravo ondje gdje je potrebna dodatna vježba. Rezultat je koevolucija — agent i okolina rastu zajedno, a zadaci postaju sve teži kako agent napreduje.
Rezultati i implikacije
Modeli Agent-World od 8 i 14 milijardi parametara nadmašuju zatvorene komercijalne baseline-ove na 23 izazovna agentna benchmark-a. Analiza pokazuje jasne trendove skaliranja — što je više raznovrsnih okruženja i iteracija samoevolucije, to je uspjeh bolji. Za hrvatsku i širu europsku AI zajednicu to znači da se kvalitetni agenti mogu trenirati i bez pristupa zatvorenim modelima iz SAD-a, pod uvjetom da postoji infrastruktura za generiranje okruženja. Agent-World sugerira da će se težište agentnog istraživanja u sljedećoj godini pomaknuti s dizajna modela na dizajn okruženja i provjerljivih zadataka. To je tiha, ali važna promjena paradigme.
Česta pitanja
- Što točno rješava Agent-World?
- Problem manjka raznovrsnih i provjerljivih okruženja za treniranje AI agenata. Umjesto ručne izrade benchmark-a, sustav autonomno otkriva baze i alate te generira tisuće tematskih okoline sa zadacima podesive težine.
- Koliko je autora radilo na papiru?
- Rad potpisuje 20 autora predvođenih skupinom s Renmin Universityja, među kojima su Guanting Dong, Ji-Rong Wen i Zhicheng Dou.
- Koliko su modeli uspješni?
- Agent-World modeli od 8 milijardi i 14 milijardi parametara nadmašuju zatvorene komercijalne baseline-ove na 23 izazovna agentna benchmark-a.
Povezane vijesti
arXiv:2605.22502: Kompiliranjem agentskih workflowa u LLM težine postiže se near-frontier kvaliteta uz 100 puta nižu cijenu
arXiv:2605.22794: MOSS pokazuje agente koji se sami unapređuju mijenjajući vlastiti izvorni kod
arXiv:2605.22535: TerminalWorld benchmark mjeri LLM agente na stvarnim Linux terminal zadacima bez simulacije