Terminus-4B：4B模型在SWE-Bench Pro上比肩Opus

Terminus-4B是专为智能体系统中的终端执行任务设计的Qwen3微调模型（40亿参数）——在SWE-Bench Pro基准测试上与Claude Sonnet/Opus和GPT-5.3-Codex基线持平甚至超越，同时通过将冗长的构建/测试日志隔离在子智能体上下文中，将主智能体的Token消耗降低约30%。

Spandan Garg、Vikram Nitin和Yufan Huang于2026年5月4日发布了arXiv预印本，验证了专用小型模型能否在智能体系统的特定子任务——终端执行——中取代前沿大模型。Terminus-4B（Qwen3-4B微调模型）在SWE-Bench Pro基准测试上与Claude Sonnet、Claude Opus和GPT-5.3-Codex基线模型持平，在某些情况下甚至超越。

什么是SWE-Bench Pro，为什么它具有参考价值？

SWE-Bench Pro是衡量AI智能体独立解决GitHub真实软件工程任务能力的基准测试。智能体需要克隆代码仓库、定位相关文件、编译项目、运行测试并提交通过完整测试套件的补丁。相比原始SWE-Bench，SWE-Pro引入了独立测试集和更严格的「通过」标准，使其成为更具挑战性的基准。

作者还在内部SWE-Bench C#基准测试上测试了该模型，表明专用能力可迁移至训练集中代表性较低的编程语言。

如何实现主智能体Token减少约30%？

Terminus-4B作为子智能体，接受主智能体委派的所有构建、测试和Shell命令。冗长的输出（构建日志、测试轨迹、异常堆栈跟踪）保留在子智能体上下文内部，而主智能体在自身上下文窗口中仅看到结果摘要。通过这种方式，主智能体的Token消耗在保持同等质量水平的前提下降低约30%。

训练采用两阶段策略：首先在成功终端执行轨迹上进行监督微调（SFT），然后使用基于评分标准的LLM-as-judge奖励进行强化学习，该奖励机制根据预定义标准评估执行命令的准确性和安全性。

这对智能体系统架构意味着什么？

这项研究指向专业化模块化的方向：不再由单一前沿模型负责全部工作——从规划到执行Shell命令——而是将系统拆分为主导推理的「大脑」和执行重复任务的「小型执行者」。Anthropic的Claude Cowork和微软的AutoGen也有类似理念，但Terminus-4B首次证明仅40亿参数的模型即足以在终端子任务上完全替代前沿模型。

这种方法能否扩展到其他子任务（浏览器自动化、代码审查、回归分类），尚待观察。但公开基准测试的结果表明，针对小型模型的专业化是比昂贵的前沿推理更具竞争力的替代方案。

常见问题

什么是SWE-Bench Pro？

SWE-Bench Pro是SWE-Bench基准测试的扩展版本，衡量AI智能体独立解决GitHub真实软件工程任务的能力——从克隆代码仓库到编译、测试并提交通过测试套件的补丁。

Terminus-4B是如何训练的？

通过对Qwen3-4B基础模型进行两阶段后训练：首先在终端执行轨迹上进行监督微调（SFT），然后使用基于评分标准的LLM-as-judge奖励进行强化学习，评分侧重执行命令的成功率。

主智能体减少约30% Token为什么重要？

将所有构建日志和测试轨迹推送至自身上下文的主智能体（如Claude Opus）在Token和注意力质量上代价高昂。将终端任务委托给专用4B模型可清理主上下文，同时降低推理成本。

arXiv:2605.03195: Terminus-4B——40亿参数终端执行模型在SWE-Bench Pro上与Claude Opus和GPT-5.3-Codex持平，主智能体Token消耗降低约30%

什么是SWE-Bench Pro，为什么它具有参考价值？

如何实现主智能体Token减少约30%？

这对智能体系统架构意味着什么？

常见问题

来源

相关新闻