🟡 🤖 モデル 2026年5月7日木曜日 · 3 分で読めます ·

arXiv:2605.03195: Terminus-4B——40億パラメータのターミナル実行モデルがSWE-Bench ProでClaude OpusとGPT-5.3-Codexに匹敵し、メインエージェントのトークン使用量を約30%削減

arXiv:2605.03195 ↗

Editorial illustration: dva koncentrična kruga — manji 4B model za terminal i veći frontier model za planiranje povezani strelicom delegacije zadataka

Terminus-4BはエージェントシステムのターミナルExecution専用に特化した40億パラメータのQwen3ファインチューンモデルです。SWE-Bench ProベンチマークでClaude Sonnet/OpusとGPT-5.3-Codexのベースラインに匹敵または凌駕し、冗長なビルド/テストログをサブエージェントのコンテキストに隔離することでメインエージェントのトークン消費を約30%削減します。

🤖

この記事はAIにより一次情報源から生成されました。

Spandan Garg、Vikram Nitin、Yufan Huangは2026年5月4日、専門化された小型モデルがエージェントシステムの特定のサブタスク——ターミナル実行——においてフロンティアLLMを置き換えられるかという仮説を検証するarXivプレプリントを公開しました。Terminus-4B(Qwen3-4Bのファインチューン)は、SWE-Bench ProベンチマークでClaude Sonnet、Claude Opus、GPT-5.3-Codexのベースラインモデルに匹敵し、場合によっては凌駕します。

SWE-Bench Proとは何か、なぜ重要なのか?

SWE-Bench ProはAIエージェントがGitHubのイシューから実際のソフトウェアエンジニアリングタスクを自律的に解決する能力を測定するベンチマークです。エージェントはリポジトリをクローンし、関連ファイルを特定し、プロジェクトをコンパイルし、テストを実行し、テストスイート全体をパスするパッチを提出する必要があります。元のSWE-Benchとの違いは、SWE-Proが独立したテストセットとより厳格な「合格」基準を導入している点で、より挑戦的なベンチマークになっています。

著者はさらに内部SWE-Bench C#ベンチマークでもモデルをテストしており、専門化がトレーニングセットで比較的少ない言語にも転移することを示しています。

どのようにしてメインエージェントのトークンを約30%削減するのか?

Terminus-4Bはサブエージェントとして機能し、メインエージェントから全てのビルド、テスト、シェルコマンドを委任されます。冗長な出力(ビルドログ、テストトレース、例外スタックトレース)はサブエージェントのコンテキスト内に隔離され、メインエージェントは自身のウィンドウで結果のサマリーだけを見ます。これにより、品質のパリティを維持しながらメインエージェントのトークン消費が約30%削減されます。

トレーニングは2段階で行われます。まず成功したターミナル実行のトレースで教師あり微調整(SFT)を行い、次に事前定義された基準に基づいて実行されたコマンドの正確性と安全性を評価するrubricベースのLLM-as-judge報酬を用いた強化学習を行います。

エージェントシステムのアーキテクチャにとって何を意味するか?

この研究は専門化されたモジュール性の方向を示しています。計画から Shell コマンドの実行まで1つのフロンティアモデルが全て行うのではなく、推論を主導する「大きな知性」と繰り返し作業を実行する「小さな実行者」にシステムを分割します。AnthropicのClaude CoworkやMicrosoftのAutoGenにも同様のアイデアがありますが、Terminus-4Bはわずか40億パラメータのモデルがターミナルのサブタスクでフロンティアモデルの完全なパリティを達成するのに十分であることを初めて示しました。

このアプローチが他のサブタスク(ブラウザ自動化、コードレビュー、リグレッションのトリアージ)にどれだけ広がるかはまだ見えてきませんが、公開ベンチマークの結果は、小型モデルの専門化がフロンティアの高コスト推論への真の代替案であることを示唆しています。

よくある質問

SWE-Bench Proとは何ですか?
SWE-Bench ProはSWE-Benchの拡張版で、AIエージェントがGitHubのイシューから実際のソフトウェアエンジニアリングタスクを自律的に解決する能力を測定します——リポジトリのクローンからコンパイル、テスト、テストスイートをパスするパッチの提出までを評価します。
Terminus-4Bはどのように学習されましたか?
Qwen3-4Bベースモデルに対して2段階のポストトレーニングを実施しました。まずターミナル実行のトレースで教師あり微調整(SFT)を行い、次に実行コマンドの成功を評価するrubricベースのLLM-as-judge報酬を用いた強化学習を行いました。
メインエージェントのトークンが約30%削減されることが重要な理由は何ですか?
ビルドログとテストトレース全体を自身のコンテキストに押し込んでいるメインエージェント(Claude Opusなど)はトークンとアテンションの品質の両面でコストが高くなります。ターミナル作業を専用の4Bモデルに委任することでメインコンテキストを清潔に保ち、推論コストを削減します。