🟡 🤖 Modelle Donnerstag, 7. Mai 2026 · 2 Min. Lesezeit ·

arXiv:2605.03195: Terminus-4B — 4 Milliarden Parameter für Terminal-Execution auf Augenhöhe mit Claude Opus und GPT-5.3-Codex bei SWE-Bench Pro mit ~30 % weniger Haupt-Agent-Token

arXiv:2605.03195 ↗

Editorial illustration: zwei konzentrische Kreise — kleineres 4B-Modell für Terminal und größeres Frontier-Modell für Planung, verbunden durch einen Delegationspfeil

Terminus-4B ist ein 4-Milliarden-Parameter-Qwen3-Fine-Tune, spezialisiert auf Terminal-Execution in Agenten-Systemen — auf dem SWE-Bench-Pro-Benchmark erreicht er Claude Sonnet/Opus und GPT-5.3-Codex und reduziert den Token-Verbrauch des Haupt-Agenten durch Isolation von Build/Test-Logs im Subagenten-Kontext um etwa 30 %.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

Spandan Garg, Vikram Nitin und Yufan Huang veröffentlichten am 4. Mai 2026 ein arXiv-Preprint, das die These testet, dass ein spezialisiertes kleines Modell einen Frontier-LLM für eine eng begrenzte Agenten-Teilaufgabe ersetzen kann — Terminal-Execution. Terminus-4B, ein Qwen3-4B-Fine-Tune, erreicht auf dem SWE-Bench-Pro-Benchmark Claude Sonnet, Claude Opus und GPT-5.3-Codex und übertrifft diese in einigen Fällen.

Was ist SWE-Bench Pro und warum ist er relevant?

SWE-Bench Pro ist ein Benchmark, der die Fähigkeit von KI-Agenten misst, reale Software-Engineering-Aufgaben aus GitHub-Issues selbständig zu lösen. Der Agent muss ein Repository klonen, relevante Dateien lokalisieren, das Projekt kompilieren, Tests ausführen und einen Patch einreichen, der die gesamte Test-Suite besteht. Der Unterschied zum originalen SWE-Bench liegt darin, dass SWE-Pro eine unabhängige Testgruppe und strengere „Bestanden”-Kriterien einführt, was ihn zu einem rigoroseren Benchmark macht.

Die Autoren testen das Modell zusätzlich auf einem internen SWE-Bench-C#-Benchmark und zeigen, dass die Spezialisierung auch auf weniger vertretene Sprachen im Trainings-Set übergeht.

Wie wird die ~30-%-Reduzierung der Haupt-Agent-Token erreicht?

Terminus-4B übernimmt die Rolle eines Subagenten, an den der Haupt-Agent alle Build-, Test- und Shell-Befehle delegiert. Verbose Ausgaben (Build-Logs, Test-Traces, Exception-Stacks) bleiben im Subagenten-Kontext isoliert, während der Haupt-Agent in seinem Fenster nur eine Zusammenfassung der Ergebnisse sieht. Dadurch sinkt der Token-Verbrauch des Haupt-Agenten um etwa 30 % bei gleichbleibender Qualität.

Das Training ist zweistufig: zuerst Supervised Finetuning (SFT) auf Traces erfolgreicher Terminal-Ausführung, dann Reinforcement Learning mit rubric-basierter LLM-as-Judge-Belohnung, die Genauigkeit und Sicherheit ausgeführter Befehle nach vordefinierten Kriterien bewertet.

Was bedeutet das für Agenten-System-Architekturen?

Die Arbeit geht in Richtung spezialisierter Modularität: Statt eines einzigen Frontier-Modells, das alles erledigt — von der Planung bis zur Shell-Befehlsausführung — wird das System in einen „großen Verstand” für das Reasoning und „kleine Arbeiter” für repetitive Aufgaben aufgeteilt. Eine ähnliche Idee findet sich in Anthropics Claude Cowork und Microsofts AutoGen, aber Terminus-4B zeigt erstmals, dass bereits ein 4B-Modell für vollständige Parität als Frontier-Modell-Ersatz in der Terminal-Teilaufgabe ausreicht.

Es bleibt abzuwarten, wie weit sich dieser Ansatz auf andere Teilaufgaben ausdehnen wird (Browser-Automatisierung, Code-Review, Regressions-Triage), aber die Ergebnisse auf einem öffentlichen Benchmark legen nahe, dass die Spezialisierung kleiner Modelle eine ernsthafte Alternative zu teurem Frontier-Inferenz ist.

Häufig gestellte Fragen

Was ist SWE-Bench Pro?
SWE-Bench Pro ist eine erweiterte Version des SWE-Bench-Benchmarks, der die Fähigkeit von KI-Agenten misst, reale Software-Engineering-Aufgaben aus GitHub-Issues selbständig zu lösen — vom Klonen eines Repositorys bis zum Einreichen eines Patches, der die Test-Suite besteht.
Wie wurde Terminus-4B trainiert?
In zwei Post-Training-Schritten auf dem Qwen3-4B-Basismodell: zuerst Supervised Finetuning (SFT) auf Terminal-Ausführungs-Traces, dann Reinforcement Learning mit rubric-basierter LLM-as-Judge-Belohnung, die den Erfolg ausgeführter Befehle bewertet.
Warum ist die Reduzierung der Haupt-Agent-Token um ~30 % wichtig?
Ein Haupt-Agent (z. B. Claude Opus), der jeden Build-Log und Test-Trace durch seinen eigenen Kontext schiebt, zahlt einen hohen Preis an Token und Aufmerksamkeitsqualität. Die Delegation von Terminal-Arbeit an ein spezialisiertes 4B-Modell bereinigt den Hauptkontext und senkt die Inferenzkosten.