ArXiv AgentFloor: mali open-weight modeli (0,27B-32B) zadovoljavaju kratkoročne agentne zadatke, GPT-5 zadržava prednost samo u dugoročnom planiranju
Ranit Karmakar i Jayita Chatterjee predstavili su AgentFloor — determinističku mrežu od 30 zadataka organiziranu u šest razina sposobnosti, na kojoj su evaluirali 16 open-weight modela u rasponu od 0,27 do 32 milijardi parametara plus GPT-5. Zaključak: manji modeli su dovoljni za kratkoročne, strukturirane agentne zadatke, dok frontier modeli zadržavaju jasnu prednost samo na dugoročnom planiranju s ograničenjima.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Ranit Karmakar i Jayita Chatterjee objavili su 1. svibnja 2026. na ArXiv-u rad “AgentFloor: How Far Up the Tool-Use Ladder Can Small Open-Weight Models Go?”. Cilj rada: empirijski utvrditi gdje su granice malih open-weight modela u realnim agentnim zadatcima i kada se isplati skupiji frontier model.
Koja je struktura AgentFloor benchmarka?
AgentFloor je deterministička mreža od 30 zadataka organizirana u šest razina sposobnosti. Razine pokrivaju:
- Praćenje instrukcija (osnovno čitanje i izvršavanje)
- Korištenje alata (jedan tool call, jasan ulaz)
- Višekoračnu koordinaciju (sekvenca tool poziva)
- Dugoročno planiranje pod trajnim ograničenjima (zadatci koji se mijenjaju tijekom izvršavanja)
- Plus dvije srednje razine koje gradiraju kompleksnost
Determinizam mreže je važan: rezultati su reproducibilni i nisu artifakt nasumičnosti benchmarka. To čini AgentFloor čistom mjernom alatom za usporedbu modela bez šuma koji standardni agent benchmarci često imaju.
Evaluirano je 16 open-weight modela u rasponu od 0,27 do 32 milijardi parametara, plus GPT-5 kao frontier referenca. Konkretni popis 16 modela rad ne navodi u javnom sažetku, ali raspon obuhvaća sve od malih on-device modela do srednjih open-weight LLM-ova koji se mogu pokretati na consumer GPU-u.
Što su autori otkrili?
Glavni nalaz formulira se kratko: “manji modeli otvorene težine već su dostatni” za rutinsku upotrebu alata. Jaki open-weight modeli (vjerojatno u rasponu 14B-32B parametara) podudaraju se s GPT-5 u performansi na kratkoročnim, strukturiranim taskovima.
Razlika postaje jasna tek na dugoročnom planiranju pod trajnim ograničenjima — zadatcima gdje agent mora održavati kontekst kroz desetke koraka, pratiti meta-stanje (npr. preostali budžet) i prilagođavati strategiju kako se ograničenja mijenjaju. Tu GPT-5 i dalje vodi.
To je obrazac koji potvrđuje hibridnu arhitekturu kao racionalan dizajn za enterprise agente:
- Mali model (0,27B-7B) za rutinu — provjere, jednokratne pretrage, formatiranje
- Srednji model (14B-32B) za standardne tool calls i kratkoročnu koordinaciju
- Frontier model (GPT-5 razine) samo za zadatke koji zahtijevaju dugoročno planiranje s ograničenjima
Što ovo znači za troškovnu strukturu agentnih sustava?
Posljedica je značajna za enterprise budžete. Tipični agent workflow troši 80-90 % poziva na rutinu — dohvati podatak, formatiraj odgovor, uvjeti grananje. Ako se taj 80-90 % može preusmjeriti na 7B-32B open-weight model lokalno, infrastrukturni trošak pada za cijeli red veličine u odnosu na sve-frontier deployment.
Frontier model ostaje rezerviran za 10-20 % poziva gdje stvarno donosi razliku. To je dizajn koji je već u praksi kod nekih tech kompanija, ali AgentFloor daje prvu kvantitativnu osnovu za argumentaciju gdje je granica i koje modele birati.
Rad je dostupan na ArXiv pod ID-om 2605.00334.
Česta pitanja
- Koje su tri razine sposobnosti koje AgentFloor mjeri?
- Šest razina: praćenje instrukcija, korištenje alata, višekoračna koordinacija, dugoročno planiranje pod trajnim ograničenjima, plus dvije srednje razine. Mreža sadrži 30 determinističkih zadataka raspoređenih kroz tih šest razina.
- Koji je raspon evaluiranih modela?
- 16 open-weight modela u rasponu od 0,27 do 32 milijardi parametara, plus GPT-5 kao referentni frontier. Konkretni popis 16 modela rad ne navodi u sažetku, ali pokriva spektar od malih on-device modela do srednjih open-weight LLM-ova.
- Kada frontier modeli i dalje imaju prednost?
- Na dugoročnom planiranju pod trajnim ograničenjima — zadatcima koji zahtijevaju održavanje konteksta kroz desetke koraka i prilagodbu strategiji kako se ograničenja mijenjaju. Na kratkoročnim, strukturiranim taskovima jaz se značajno smanjuje.
Povezane vijesti
ArXiv Token Arena: kontinuirani benchmark koji ujedinjuje energiju i kogniciju, otkriva 6,2× razliku u jouleima po točnom odgovoru između endpointa
NIST CAISI: DeepSeek V4 Pro je najsposobniji kineski AI model do sada, ali zaostaje 8 mjeseci za američkim frontierom
AdaMeZO: fino ugađanje LLM-ova Adam-stilom bez pohrane momenata u GPU memoriji