🟡 🤖 模型 2026年5月5日星期二 · 2 分钟阅读 ·

ArXiv AgentFloor:小型开放权重模型(0.27B-32B)能胜任短期智能体任务,GPT-5仅在长期规划上保持优势

编辑插图:不同大小模型位于不同级别的能力阶梯,工具使用评估的象征

Ranit Karmakar和Jayita Chatterjee发布了AgentFloor——由30个任务组成的确定性网络,分6个能力级别,用于评估16个开放权重模型(参数量0.27B至32B)及GPT-5。结论:小型模型对于短期、结构化的智能体任务已经足够,而前沿模型仅在受限长期规划上保持明显优势。

🤖

本文由人工智能基于一手来源生成。

Ranit Karmakar和Jayita Chatterjee于2026年5月1日在ArXiv上发布了论文**《AgentFloor:小型开放权重模型能爬多高工具使用阶梯?》**。论文目标:实证确定小型开放权重模型在真实智能体任务中的边界,以及何时值得使用更昂贵的前沿模型。

AgentFloor基准的结构是什么?

AgentFloor是一个由30个任务组成的确定性网络,分为六个能力级别。级别覆盖:

  • 指令遵循(基础阅读和执行)
  • 工具使用(单次工具调用,明确输入)
  • 多步骤协调(工具调用序列)
  • 受持续约束的长期规划(执行过程中变化的任务)
  • 加上对复杂性进行分级的两个中间级别

网络的确定性很重要:结果可重现,不是基准随机性的产物。这使AgentFloor成为比较模型的纯粹测量工具,而没有标准智能体基准经常存在的噪声。

评估了16个参数量从0.27亿到320亿的开放权重模型,以及GPT-5作为前沿参考。16个模型的具体列表未在公开摘要中说明,但范围涵盖从小型设备端模型到可在消费级GPU上运行的中型开放权重LLM。

作者发现了什么?

主要发现可以简洁表述:「较小的开放权重模型已经足够」用于常规工具使用。强大的开放权重模型(可能在14B-32B参数范围内)在短期、结构化任务上与GPT-5性能相当

差距仅在受持续约束的长期规划上变得明显——智能体必须通过数十个步骤维持上下文、跟踪元状态(例如剩余预算)并随约束变化调整策略的任务。在这方面GPT-5仍然领先。

这是一种确认混合架构作为企业智能体理性设计的模式:

  • 小型模型(0.27B-7B)用于常规工作——检查、一次性搜索、格式化
  • 中型模型(14B-32B)用于标准工具调用和短期协调
  • 前沿模型(GPT-5级别)仅用于需要受限长期规划的任务

这对智能体系统的成本结构意味着什么?

对企业预算的影响是显著的。典型的智能体工作流将80-90%的调用用于常规工作——获取数据、格式化响应、条件分支。如果这80-90%可以重定向到本地7B-32B开放权重模型,基础设施成本相比全前沿部署可降低整整一个数量级。

前沿模型保留用于确实能带来差异的10-20%调用。这是一些科技公司已在实践中采用的设计,但AgentFloor提供了第一个关于边界在哪里以及选择哪些模型的量化依据。

论文在ArXiv上的ID为2605.00334。

常见问题

AgentFloor测量的三个能力级别是什么?
六个级别:指令遵循、工具使用、多步骤协调、受持续约束的长期规划,加上两个中间级别。网络包含30个确定性任务,分布在这六个级别中。
评估的模型范围是什么?
16个开放权重模型,参数量从0.27亿到320亿,加上GPT-5作为前沿参考。公开摘要未列出16个模型的具体名单,但范围覆盖从小型设备端模型到可在消费级GPU上运行的中型开放权重LLM。
前沿模型何时仍有优势?
在受持续约束的长期规划上——需要在数十个步骤中维持上下文并随约束变化调整策略的任务。在短期、结构化任务上,差距显著缩小。