Agent-World: skalabilna sinteza okruženja za evoluciju AI agenata iz Renmin Universityja
Zašto je bitno
Agent-World je novi istraživački okvir kineskog Renmin Universityja koji automatski generira tisuće raznovrsnih okruženja za treniranje AI agenata. Zamjenjuje ručno izrađene benchmark-e dinamičkim scenarijima i omogućuje evolucijsko učenje kroz koevoluciju agenta i okoline.
Agent-World: skalabilna sinteza okruženja za evoluciju AI agenata
Istraživači s kineskog Renmin Universityja objavili su Agent-World, okvir koji automatski generira raznovrsna okruženja za treniranje AI agenata. Rad s 20 autora nudi alternativu sporoj, ručnoj izradi benchmark-a i predlaže koevoluciju agenta i okoline kao put prema robusnijoj agentnoj inteligenciji.
Zašto su postojeći benchmark-ovi nedovoljni
Većina današnjih agentnih benchmark-a nastaje ručno — istraživači sami definiraju zadatke, alate i evaluacijske kriterije. Takav pristup je skup, spor i slabo pokriva raznolikost scenarija s kojima se agenti (autonomni programi pokretani jezičnim modelima) susreću u stvarnom svijetu. Agenti trenirani na uskom skupu zadataka teško generaliziraju na nove domene, a pokrivenost rubnih slučajeva ostaje ograničena. Agent-World te probleme napada automatizacijom cijelog lanca — od otkrivanja izvora do generiranja provjerljivih zadataka. Time se otvara mogućnost skaliranja treninga na tisuće različitih tema istodobno, što je prije bilo nezamislivo bez velikih ljudskih timova.
Dvije komponente okvira
Agent-World počiva na dvije glavne komponente. Prva je “Environment-Task Discovery” — modul koji autonomno istražuje baze podataka i ekosustave alata kroz tisuće tema stvarnih okruženja i iz njih sintetizira provjerljive zadatke s podesivom razinom težine. Druga komponenta zove se “Self-Evolving Agent Training” i kombinira reinforcement learning (učenje pojačanjem — metoda u kojoj agent uči iz nagrade za svaki potez) u više okruženja s dinamičkom sintezom zadataka. Taj dio automatski identificira nedostatke u vještinama agenta i generira nove zadatke upravo ondje gdje je potrebna dodatna vježba. Rezultat je koevolucija — agent i okolina rastu zajedno, a zadaci postaju sve teži kako agent napreduje.
Rezultati i implikacije
Modeli Agent-World od 8 i 14 milijardi parametara nadmašuju zatvorene komercijalne baseline-ove na 23 izazovna agentna benchmark-a. Analiza pokazuje jasne trendove skaliranja — što je više raznovrsnih okruženja i iteracija samoevolucije, to je uspjeh bolji. Za hrvatsku i širu europsku AI zajednicu to znači da se kvalitetni agenti mogu trenirati i bez pristupa zatvorenim modelima iz SAD-a, pod uvjetom da postoji infrastruktura za generiranje okruženja. Agent-World sugerira da će se težište agentnog istraživanja u sljedećoj godini pomaknuti s dizajna modela na dizajn okruženja i provjerljivih zadataka. To je tiha, ali važna promjena paradigme.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
Anthropic: Memory za Managed Agents u javnoj beti — AI agenti koji pamte kontekst između sesija
GitHub: Cloud agent sesije sada dostupne izravno iz issues i project pogleda
ArXiv SWE-chat — dataset stvarnih interakcija developera s AI coding agentima u produkciji