ArXiv AgentFloor: Kleine Open-Weight-Modelle (0,27B–32B) reichen für kurzfristige Agenten-Aufgaben aus; GPT-5 behält Vorteil nur bei langfristiger Planung
Ranit Karmakar und Jayita Chatterjee präsentierten AgentFloor — ein deterministisches Netzwerk aus 30 Aufgaben, organisiert in sechs Fähigkeitsstufen, auf dem sie 16 Open-Weight-Modelle von 0,27 bis 32 Milliarden Parametern plus GPT-5 evaluierten. Fazit: Kleinere Modelle sind für kurzfristige, strukturierte Agenten-Aufgaben ausreichend, während Frontier-Modelle einen klaren Vorteil nur bei langfristiger Planung unter dauerhaften Einschränkungen behalten.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Ranit Karmakar und Jayita Chatterjee veröffentlichten am 1. Mai 2026 auf ArXiv die Arbeit „AgentFloor: How Far Up the Tool-Use Ladder Can Small Open-Weight Models Go?”. Ziel: Empirisch zu bestimmen, wo die Grenzen kleiner Open-Weight-Modelle bei realen Agenten-Aufgaben liegen und wann ein teureres Frontier-Modell sich lohnt.
Was ist die Struktur des AgentFloor-Benchmarks?
AgentFloor ist ein deterministisches Netzwerk aus 30 Aufgaben, organisiert in sechs Fähigkeitsstufen. Die Stufen umfassen:
- Instruktionsbefolgung (einfaches Lesen und Ausführen)
- Tool-Nutzung (einzelner Tool-Aufruf, klarer Input)
- Mehrstufige Koordination (Sequenz von Tool-Aufrufen)
- Langfristige Planung unter dauerhaften Einschränkungen (Aufgaben, die sich während der Ausführung ändern)
- Plus zwei Zwischenstufen, die die Komplexität abstufen
Der Determinismus des Netzwerks ist wichtig: Ergebnisse sind reproduzierbar und kein Artefakt von Benchmark-Zufälligkeit. Das macht AgentFloor zu einem sauberen Messinstrument für den Modellvergleich ohne das Rauschen, das Standard-Agenten-Benchmarks oft aufweisen.
Evaluiert wurden 16 Open-Weight-Modelle von 0,27 bis 32 Milliarden Parametern plus GPT-5 als Frontier-Referenz. Die genaue Liste der 16 Modelle wird im öffentlichen Abstract nicht genannt, aber das Spektrum reicht von kleinen On-Device-Modellen bis zu mittelgroßen Open-Weight-LLMs, die auf einem Consumer-GPU laufen können.
Was haben die Autoren herausgefunden?
Der Hauptbefund lässt sich kurz formulieren: Kleinere Open-Weight-Modelle sind bereits ausreichend für die routinemäßige Tool-Nutzung. Starke Open-Weight-Modelle (wahrscheinlich im Bereich 14B–32B Parameter) entsprechen GPT-5 in der Leistung bei kurzfristigen, strukturierten Aufgaben.
Der Unterschied wird erst bei langfristiger Planung unter dauerhaften Einschränkungen deutlich — Aufgaben, bei denen der Agent den Kontext über Dutzende Schritte aufrechterhalten, Meta-Zustand verfolgen (z.B. verbleibendes Budget) und die Strategie bei sich ändernden Einschränkungen anpassen muss. Dort führt GPT-5 weiterhin.
Dieses Muster bestätigt eine hybride Architektur als rationalen Entwurf für Enterprise-Agenten:
- Kleines Modell (0,27B–7B) für Routine — Überprüfungen, einmalige Abfragen, Formatierung
- Mittelgroßes Modell (14B–32B) für Standard-Tool-Aufrufe und kurzfristige Koordination
- Frontier-Modell (GPT-5-Klasse) nur für Aufgaben, die langfristige Planung unter Einschränkungen erfordern
Was bedeutet das für die Kostenstruktur von Agentensystemen?
Die Folge ist für Enterprise-Budgets bedeutsam. Ein typischer Agenten-Workflow verbringt 80–90 % der Aufrufe mit Routine — Daten abrufen, Antwort formatieren, Bedingungen verzweigen. Wenn dieser 80–90 %-Anteil auf ein lokal laufendes 7B–32B-Open-Weight-Modell umgeleitet werden kann, sinken die Infrastrukturkosten um eine Größenordnung im Vergleich zu einem Vollständig-Frontier-Deployment.
Das Frontier-Modell bleibt für die 10–20 % der Aufrufe reserviert, bei denen es tatsächlich den Unterschied macht. Dies ist ein Design, das bereits bei einigen Tech-Unternehmen in der Praxis ist, aber AgentFloor liefert die erste quantitative Grundlage, um zu argumentieren, wo die Grenze liegt und welche Modelle gewählt werden sollten.
Das Paper ist auf ArXiv unter ID 2605.00334 verfügbar.
Häufig gestellte Fragen
- Welche Fähigkeitsstufen misst AgentFloor?
- Sechs Stufen: Instruktionsbefolgung, Tool-Nutzung, mehrstufige Koordination, langfristige Planung unter dauerhaften Einschränkungen sowie zwei Zwischenstufen. Das Netzwerk enthält 30 deterministische Aufgaben, die über diese sechs Stufen verteilt sind.
- Welcher Bereich wird bei den evaluierten Modellen abgedeckt?
- 16 Open-Weight-Modelle von 0,27 bis 32 Milliarden Parametern plus GPT-5 als Frontier-Referenz. Die genaue Liste der 16 Modelle wird im Abstract nicht genannt, deckt aber das Spektrum von kleinen On-Device-Modellen bis zu mittelgroßen Open-Weight-LLMs ab.
- Wann haben Frontier-Modelle noch einen Vorteil?
- Bei langfristiger Planung unter dauerhaften Einschränkungen — Aufgaben, die Kontexterhaltung über Dutzende Schritte und Strategieanpassung bei sich ändernden Einschränkungen erfordern. Bei kurzfristigen, strukturierten Tasks verringert sich der Abstand erheblich.
Verwandte Nachrichten
ArXiv Token Arena: kontinuierlicher Benchmark für Energie und Kognition zeigt 6,2-fachen Unterschied in Joule pro korrekter Antwort zwischen Endpunkten
NIST CAISI: DeepSeek V4 Pro ist bisher fähigstes chinesisches KI-Modell, liegt aber 8 Monate hinter US-Frontier
AdaMeZO: Adam-Stil LLM-Fine-Tuning ohne Speicherung von Gradientenmomenten im GPU-Speicher