ArXiv AgentFloor: Kleine Open-Weight-Modelle (0,27B–32B) reichen für kurzfristige Agenten-Aufgaben aus; GPT-5 behält Vorteil nur bei langfristiger Planung
Ranit Karmakar und Jayita Chatterjee präsentierten AgentFloor — ein deterministisches Netzwerk aus 30 Aufgaben, organisiert in sechs Fähigkeitsstufen, auf dem sie 16 Open-Weight-Modelle von 0,27 bis 32 Milliarden Parametern plus GPT-5 evaluierten. Fazit: Kleinere Modelle sind für kurzfristige, strukturierte Agenten-Aufgaben ausreichend, während Frontier-Modelle einen klaren Vorteil nur bei langfristiger Planung unter dauerhaften Einschränkungen behalten.