AgentFloor: mali modeli dovoljni za rutinske agente

Ranit Karmakar i Jayita Chatterjee predstavili su AgentFloor — determinističku mrežu od 30 zadataka organiziranu u šest razina sposobnosti, na kojoj su evaluirali 16 open-weight modela u rasponu od 0,27 do 32 milijardi parametara plus GPT-5. Zaključak: manji modeli su dovoljni za kratkoročne, strukturirane agentne zadatke, dok frontier modeli zadržavaju jasnu prednost samo na dugoročnom planiranju s ograničenjima.

Ranit Karmakar i Jayita Chatterjee objavili su 1. svibnja 2026. na ArXiv-u rad “AgentFloor: How Far Up the Tool-Use Ladder Can Small Open-Weight Models Go?”. Cilj rada: empirijski utvrditi gdje su granice malih open-weight modela u realnim agentnim zadatcima i kada se isplati skupiji frontier model.

Koja je struktura AgentFloor benchmarka?

AgentFloor je deterministička mreža od 30 zadataka organizirana u šest razina sposobnosti. Razine pokrivaju:

Praćenje instrukcija (osnovno čitanje i izvršavanje)
Korištenje alata (jedan tool call, jasan ulaz)
Višekoračnu koordinaciju (sekvenca tool poziva)
Dugoročno planiranje pod trajnim ograničenjima (zadatci koji se mijenjaju tijekom izvršavanja)
Plus dvije srednje razine koje gradiraju kompleksnost

Determinizam mreže je važan: rezultati su reproducibilni i nisu artifakt nasumičnosti benchmarka. To čini AgentFloor čistom mjernom alatom za usporedbu modela bez šuma koji standardni agent benchmarci često imaju.

Evaluirano je 16 open-weight modela u rasponu od 0,27 do 32 milijardi parametara, plus GPT-5 kao frontier referenca. Konkretni popis 16 modela rad ne navodi u javnom sažetku, ali raspon obuhvaća sve od malih on-device modela do srednjih open-weight LLM-ova koji se mogu pokretati na consumer GPU-u.

Što su autori otkrili?

Glavni nalaz formulira se kratko: “manji modeli otvorene težine već su dostatni” za rutinsku upotrebu alata. Jaki open-weight modeli (vjerojatno u rasponu 14B-32B parametara) podudaraju se s GPT-5 u performansi na kratkoročnim, strukturiranim taskovima.

Razlika postaje jasna tek na dugoročnom planiranju pod trajnim ograničenjima — zadatcima gdje agent mora održavati kontekst kroz desetke koraka, pratiti meta-stanje (npr. preostali budžet) i prilagođavati strategiju kako se ograničenja mijenjaju. Tu GPT-5 i dalje vodi.

To je obrazac koji potvrđuje hibridnu arhitekturu kao racionalan dizajn za enterprise agente:

Mali model (0,27B-7B) za rutinu — provjere, jednokratne pretrage, formatiranje
Srednji model (14B-32B) za standardne tool calls i kratkoročnu koordinaciju
Frontier model (GPT-5 razine) samo za zadatke koji zahtijevaju dugoročno planiranje s ograničenjima

Što ovo znači za troškovnu strukturu agentnih sustava?

Posljedica je značajna za enterprise budžete. Tipični agent workflow troši 80-90 % poziva na rutinu — dohvati podatak, formatiraj odgovor, uvjeti grananje. Ako se taj 80-90 % može preusmjeriti na 7B-32B open-weight model lokalno, infrastrukturni trošak pada za cijeli red veličine u odnosu na sve-frontier deployment.

Frontier model ostaje rezerviran za 10-20 % poziva gdje stvarno donosi razliku. To je dizajn koji je već u praksi kod nekih tech kompanija, ali AgentFloor daje prvu kvantitativnu osnovu za argumentaciju gdje je granica i koje modele birati.

Rad je dostupan na ArXiv pod ID-om 2605.00334.

Česta pitanja

Koje su tri razine sposobnosti koje AgentFloor mjeri?

Šest razina: praćenje instrukcija, korištenje alata, višekoračna koordinacija, dugoročno planiranje pod trajnim ograničenjima, plus dvije srednje razine. Mreža sadrži 30 determinističkih zadataka raspoređenih kroz tih šest razina.

Koji je raspon evaluiranih modela?

16 open-weight modela u rasponu od 0,27 do 32 milijardi parametara, plus GPT-5 kao referentni frontier. Konkretni popis 16 modela rad ne navodi u sažetku, ali pokriva spektar od malih on-device modela do srednjih open-weight LLM-ova.

Kada frontier modeli i dalje imaju prednost?

Na dugoročnom planiranju pod trajnim ograničenjima — zadatcima koji zahtijevaju održavanje konteksta kroz desetke koraka i prilagodbu strategiji kako se ograničenja mijenjaju. Na kratkoročnim, strukturiranim taskovima jaz se značajno smanjuje.

ArXiv AgentFloor: mali open-weight modeli (0,27B-32B) zadovoljavaju kratkoročne agentne zadatke, GPT-5 zadržava prednost samo u dugoročnom planiranju

Koja je struktura AgentFloor benchmarka?

Što su autori otkrili?

Što ovo znači za troškovnu strukturu agentnih sustava?

Česta pitanja

Izvori

Povezane vijesti