🟡 🤖 模型 2026年5月7日星期四 · 2 分钟阅读 ·

arXiv:2605.03195: Terminus-4B——40亿参数终端执行模型在SWE-Bench Pro上与Claude Opus和GPT-5.3-Codex持平,主智能体Token消耗降低约30%

arXiv:2605.03195 ↗

Editorial illustration: dva koncentrična kruga — manji 4B model za terminal i veći frontier model za planiranje povezani strelicom delegacije zadataka

Terminus-4B是专为智能体系统中的终端执行任务设计的Qwen3微调模型(40亿参数)——在SWE-Bench Pro基准测试上与Claude Sonnet/Opus和GPT-5.3-Codex基线持平甚至超越,同时通过将冗长的构建/测试日志隔离在子智能体上下文中,将主智能体的Token消耗降低约30%。

🤖

本文由人工智能基于一手来源生成。

Spandan Garg、Vikram Nitin和Yufan Huang于2026年5月4日发布了arXiv预印本,验证了专用小型模型能否在智能体系统的特定子任务——终端执行——中取代前沿大模型。Terminus-4B(Qwen3-4B微调模型)在SWE-Bench Pro基准测试上与Claude Sonnet、Claude Opus和GPT-5.3-Codex基线模型持平,在某些情况下甚至超越。

什么是SWE-Bench Pro,为什么它具有参考价值?

SWE-Bench Pro是衡量AI智能体独立解决GitHub真实软件工程任务能力的基准测试。智能体需要克隆代码仓库、定位相关文件、编译项目、运行测试并提交通过完整测试套件的补丁。相比原始SWE-Bench,SWE-Pro引入了独立测试集和更严格的「通过」标准,使其成为更具挑战性的基准。

作者还在内部SWE-Bench C#基准测试上测试了该模型,表明专用能力可迁移至训练集中代表性较低的编程语言。

如何实现主智能体Token减少约30%?

Terminus-4B作为子智能体,接受主智能体委派的所有构建、测试和Shell命令。冗长的输出(构建日志、测试轨迹、异常堆栈跟踪)保留在子智能体上下文内部,而主智能体在自身上下文窗口中仅看到结果摘要。通过这种方式,主智能体的Token消耗在保持同等质量水平的前提下降低约30%。

训练采用两阶段策略:首先在成功终端执行轨迹上进行监督微调(SFT),然后使用基于评分标准的LLM-as-judge奖励进行强化学习,该奖励机制根据预定义标准评估执行命令的准确性和安全性。

这对智能体系统架构意味着什么?

这项研究指向专业化模块化的方向:不再由单一前沿模型负责全部工作——从规划到执行Shell命令——而是将系统拆分为主导推理的「大脑」和执行重复任务的「小型执行者」。Anthropic的Claude Cowork和微软的AutoGen也有类似理念,但Terminus-4B首次证明仅40亿参数的模型即足以在终端子任务上完全替代前沿模型。

这种方法能否扩展到其他子任务(浏览器自动化、代码审查、回归分类),尚待观察。但公开基准测试的结果表明,针对小型模型的专业化是比昂贵的前沿推理更具竞争力的替代方案。

常见问题

什么是SWE-Bench Pro?
SWE-Bench Pro是SWE-Bench基准测试的扩展版本,衡量AI智能体独立解决GitHub真实软件工程任务的能力——从克隆代码仓库到编译、测试并提交通过测试套件的补丁。
Terminus-4B是如何训练的?
通过对Qwen3-4B基础模型进行两阶段后训练:首先在终端执行轨迹上进行监督微调(SFT),然后使用基于评分标准的LLM-as-judge奖励进行强化学习,评分侧重执行命令的成功率。
主智能体减少约30% Token为什么重要?
将所有构建日志和测试轨迹推送至自身上下文的主智能体(如Claude Opus)在Token和注意力质量上代价高昂。将终端任务委托给专用4B模型可清理主上下文,同时降低推理成本。