AgentFloor：小型模型已足够胜任常规智能体任务

Ranit Karmakar和Jayita Chatterjee发布了AgentFloor——由30个任务组成的确定性网络，分6个能力级别，用于评估16个开放权重模型（参数量0.27B至32B）及GPT-5。结论：小型模型对于短期、结构化的智能体任务已经足够，而前沿模型仅在受限长期规划上保持明显优势。

Ranit Karmakar和Jayita Chatterjee于2026年5月1日在ArXiv上发布了论文**《AgentFloor：小型开放权重模型能爬多高工具使用阶梯？》**。论文目标：实证确定小型开放权重模型在真实智能体任务中的边界，以及何时值得使用更昂贵的前沿模型。

AgentFloor基准的结构是什么？

AgentFloor是一个由30个任务组成的确定性网络，分为六个能力级别。级别覆盖：

指令遵循（基础阅读和执行）
工具使用（单次工具调用，明确输入）
多步骤协调（工具调用序列）
受持续约束的长期规划（执行过程中变化的任务）
加上对复杂性进行分级的两个中间级别

网络的确定性很重要：结果可重现，不是基准随机性的产物。这使AgentFloor成为比较模型的纯粹测量工具，而没有标准智能体基准经常存在的噪声。

评估了16个参数量从0.27亿到320亿的开放权重模型，以及GPT-5作为前沿参考。16个模型的具体列表未在公开摘要中说明，但范围涵盖从小型设备端模型到可在消费级GPU上运行的中型开放权重LLM。

作者发现了什么？

主要发现可以简洁表述：「较小的开放权重模型已经足够」用于常规工具使用。强大的开放权重模型（可能在14B-32B参数范围内）在短期、结构化任务上与GPT-5性能相当。

差距仅在受持续约束的长期规划上变得明显——智能体必须通过数十个步骤维持上下文、跟踪元状态（例如剩余预算）并随约束变化调整策略的任务。在这方面GPT-5仍然领先。

这是一种确认混合架构作为企业智能体理性设计的模式：

小型模型（0.27B-7B）用于常规工作——检查、一次性搜索、格式化
中型模型（14B-32B）用于标准工具调用和短期协调
前沿模型（GPT-5级别）仅用于需要受限长期规划的任务

这对智能体系统的成本结构意味着什么？

对企业预算的影响是显著的。典型的智能体工作流将80-90%的调用用于常规工作——获取数据、格式化响应、条件分支。如果这80-90%可以重定向到本地7B-32B开放权重模型，基础设施成本相比全前沿部署可降低整整一个数量级。

前沿模型保留用于确实能带来差异的10-20%调用。这是一些科技公司已在实践中采用的设计，但AgentFloor提供了第一个关于边界在哪里以及选择哪些模型的量化依据。

论文在ArXiv上的ID为2605.00334。

常见问题

AgentFloor测量的三个能力级别是什么？

六个级别：指令遵循、工具使用、多步骤协调、受持续约束的长期规划，加上两个中间级别。网络包含30个确定性任务，分布在这六个级别中。

评估的模型范围是什么？

16个开放权重模型，参数量从0.27亿到320亿，加上GPT-5作为前沿参考。公开摘要未列出16个模型的具体名单，但范围覆盖从小型设备端模型到可在消费级GPU上运行的中型开放权重LLM。

前沿模型何时仍有优势？

在受持续约束的长期规划上——需要在数十个步骤中维持上下文并随约束变化调整策略的任务。在短期、结构化任务上，差距显著缩小。

ArXiv AgentFloor：小型开放权重模型（0.27B-32B）能胜任短期智能体任务，GPT-5仅在长期规划上保持优势

AgentFloor基准的结构是什么？

作者发现了什么？

这对智能体系统的成本结构意味着什么？

常见问题

来源

相关新闻