arXiv:2605.03195: Terminus-4B——40亿参数终端执行模型在SWE-Bench Pro上与Claude Opus和GPT-5.3-Codex持平,主智能体Token消耗降低约30%
Terminus-4B是专为智能体系统中的终端执行任务设计的Qwen3微调模型(40亿参数)——在SWE-Bench Pro基准测试上与Claude Sonnet/Opus和GPT-5.3-Codex基线持平甚至超越,同时通过将冗长的构建/测试日志隔离在子智能体上下文中,将主智能体的Token消耗降低约30%。