arXiv:2605.03195: Terminus-4B——40億パラメータのターミナル実行モデルがSWE-Bench ProでClaude OpusとGPT-5.3-Codexに匹敵し、メインエージェントのトークン使用量を約30%削減
Terminus-4BはエージェントシステムのターミナルExecution専用に特化した40億パラメータのQwen3ファインチューンモデルです。SWE-Bench ProベンチマークでClaude Sonnet/OpusとGPT-5.3-Codexのベースラインに匹敵または凌駕し、冗長なビルド/テストログをサブエージェントのコンテキストに隔離することでメインエージェントのトークン消費を約30%削減します。