ArXiv AgentFloor: mali open-weight modeli (0,27B-32B) zadovoljavaju kratkoročne agentne zadatke, GPT-5 zadržava prednost samo u dugoročnom planiranju
Ranit Karmakar i Jayita Chatterjee predstavili su AgentFloor — determinističku mrežu od 30 zadataka organiziranu u šest razina sposobnosti, na kojoj su evaluirali 16 open-weight modela u rasponu od 0,27 do 32 milijardi parametara plus GPT-5. Zaključak: manji modeli su dovoljni za kratkoročne, strukturirane agentne zadatke, dok frontier modeli zadržavaju jasnu prednost samo na dugoročnom planiranju s ograničenjima.