Što točno rješava Agent-World?

Problem manjka raznovrsnih i provjerljivih okruženja za treniranje AI agenata. Umjesto ručne izrade benchmark-a, sustav autonomno otkriva baze i alate te generira tisuće tematskih okoline sa zadacima podesive težine.

Koliko je autora radilo na papiru?

Rad potpisuje 20 autora predvođenih skupinom s Renmin Universityja, među kojima su Guanting Dong, Ji-Rong Wen i Zhicheng Dou.

Agent-World: skalabilna sinteza okruženja za evoluciju AI agenata

Q: Koliko su modeli uspješni?

Agent-World modeli od 8 milijardi i 14 milijardi parametara nadmašuju zatvorene komercijalne baseline-ove na 23 izazovna agentna benchmark-a.

Istraživači s kineskog Renmin Universityja objavili su Agent-World, okvir koji automatski generira raznovrsna okruženja za treniranje AI agenata. Rad s 20 autora nudi alternativu sporoj, ručnoj izradi benchmark-a i predlaže koevoluciju agenta i okoline kao put prema robusnijoj agentnoj inteligenciji.

Zašto su postojeći benchmark-ovi nedovoljni

Većina današnjih agentnih benchmark-a nastaje ručno — istraživači sami definiraju zadatke, alate i evaluacijske kriterije. Takav pristup je skup, spor i slabo pokriva raznolikost scenarija s kojima se agenti (autonomni programi pokretani jezičnim modelima) susreću u stvarnom svijetu. Agenti trenirani na uskom skupu zadataka teško generaliziraju na nove domene, a pokrivenost rubnih slučajeva ostaje ograničena. Agent-World te probleme napada automatizacijom cijelog lanca — od otkrivanja izvora do generiranja provjerljivih zadataka. Time se otvara mogućnost skaliranja treninga na tisuće različitih tema istodobno, što je prije bilo nezamislivo bez velikih ljudskih timova.

Dvije komponente okvira

Agent-World počiva na dvije glavne komponente. Prva je “Environment-Task Discovery” — modul koji autonomno istražuje baze podataka i ekosustave alata kroz tisuće tema stvarnih okruženja i iz njih sintetizira provjerljive zadatke s podesivom razinom težine. Druga komponenta zove se “Self-Evolving Agent Training” i kombinira reinforcement learning (učenje pojačanjem — metoda u kojoj agent uči iz nagrade za svaki potez) u više okruženja s dinamičkom sintezom zadataka. Taj dio automatski identificira nedostatke u vještinama agenta i generira nove zadatke upravo ondje gdje je potrebna dodatna vježba. Rezultat je koevolucija — agent i okolina rastu zajedno, a zadaci postaju sve teži kako agent napreduje.

Rezultati i implikacije

Modeli Agent-World od 8 i 14 milijardi parametara nadmašuju zatvorene komercijalne baseline-ove na 23 izazovna agentna benchmark-a. Analiza pokazuje jasne trendove skaliranja — što je više raznovrsnih okruženja i iteracija samoevolucije, to je uspjeh bolji. Za hrvatsku i širu europsku AI zajednicu to znači da se kvalitetni agenti mogu trenirati i bez pristupa zatvorenim modelima iz SAD-a, pod uvjetom da postoji infrastruktura za generiranje okruženja. Agent-World sugerira da će se težište agentnog istraživanja u sljedećoj godini pomaknuti s dizajna modela na dizajn okruženja i provjerljivih zadataka. To je tiha, ali važna promjena paradigme.

Agent-World: skalabilna sinteza okruženja za evoluciju AI agenata iz Renmin Universityja

Agent-World: skalabilna sinteza okruženja za evoluciju AI agenata

Zašto su postojeći benchmark-ovi nedovoljni

Dvije komponente okvira

Rezultati i implikacije

Izvori

Povezane vijesti