arXiv:2605.03195: Terminus-4B — 40억 파라미터 터미널 실행 모델이 SWE-Bench Pro에서 Claude Opus·GPT-5.3-Codex와 동등, 주 에이전트 토큰 약 30% 절감
Terminus-4B는 에이전트 시스템의 터미널 실행에 특화된 40억 파라미터의 Qwen3 파인튜닝 모델입니다. SWE-Bench Pro 벤치마크에서 Claude Sonnet/Opus 및 GPT-5.3-Codex 기준선과 동등하거나 이를 능가하며, 장황한 빌드/테스트 로그를 서브에이전트 컨텍스트에 격리함으로써 주 에이전트의 토큰 소비를 약 30% 줄입니다.