Terminus-4B: 4B model parira Opus na SWE-Bench Pro

Terminus-4B je 4-milijardni Qwen3 fine-tune specijaliziran za terminal execution u agentskim sustavima — na SWE-Bench Pro benchmarku izjednačava i ponekad nadmašuje Claude Sonnet/Opus i GPT-5.3-Codex baseline, a smanjuje potrošnju tokena glavnog agenta do otprilike 30 % izolacijom verbose build/test logova u subagent kontekstu.

Spandan Garg, Vikram Nitin i Yufan Huang objavili su 4. svibnja 2026. arXiv preprint koji testira tezu da specijaliziran mali model može zamijeniti frontier LLM za usku agentsku podzadaću — terminal execution. Terminus-4B, Qwen3-4B fine-tune, na SWE-Bench Pro benchmarku izjednačava i u nekim slučajevima nadmašuje Claude Sonnet, Claude Opus i GPT-5.3-Codex baseline modele.

Što je SWE-Bench Pro i zašto je relevantan?

SWE-Bench Pro je benchmark koji mjeri sposobnost AI agenata da samostalno riješe stvarne software-engineering zadatke iz GitHub issuea. Agent mora klonirati repozitorij, lokalizirati relevantne fajlove, kompajlirati projekt, pokrenuti testove i predati patch koji prolazi cijeli test suite. Razlika od originalnog SWE-Bencha je što SWE-Pro uvodi nezavisnu test-skupinu i strože kriterije za “passed”, što ga čini stroži benchmark.

Autori dodatno testiraju model na internom SWE-Bench C# benchmarku, pokazujući da specijalizacija prelazi i na manje zastupljene jezike u trening setu.

Kako se postiže ~30 % redukcija tokena glavnog agenta?

Terminus-4B preuzima ulogu subagenta kojem glavni agent delegira sve build, test i shell komande. Verbose izlazi (build logovi, test traceovi, exception stackovi) ostaju izolirani unutar subagent konteksta, dok glavni agent u svom prozoru vidi samo sažetak rezultata. Time se smanjuje potrošnja tokena glavnog agenta do otprilike 30 % uz održavanje pariteta kvalitete.

Trening je dvostupanjski: najprije Supervised Finetuning (SFT) na traceovima uspješnog terminal izvršavanja, zatim Reinforcement Learning s rubric-based LLM-as-judge nagradom koja procjenjuje točnost i sigurnost izvršenih komandi prema unaprijed definiranim kriterijima.

Što ovo znači za arhitekturu agentskih sustava?

Rad ide u smjeru specijalizirane modularnosti: umjesto da jedan frontier model radi sve — od planiranja do izvršavanja shell komandi — sustav se dijeli na “veliki um” koji vodi rasuđivanje i “male radnike” koji izvršavaju ponavljajuće poslove. Slična ideja je u Anthropicovom Claude Coworku i Microsoftovom AutoGen-u, ali Terminus-4B prvi pokazuje da već 4B model dovoljno za potpunu paritetnu zamjenu frontier modela u terminal subzadaći.

Ostaje za vidjeti koliko će se ovaj pristup proširiti na druge subzadaće (browser automation, code review, regression triage), ali rezultati na javnom benchmarku sugeriraju da je specijaliziranje malih modela ozbiljna alternativa skupljem inference-u kod frontier baselina.

Česta pitanja

Što je SWE-Bench Pro?

SWE-Bench Pro je proširena verzija benchmarka SWE-Bench koja mjeri sposobnost AI agenata da samostalno riješe stvarne software-engineering zadatke iz GitHub issuea — od kloniranja repozitorija do compiliranja, testiranja i predaje patch-a koji prolazi test suite.

Kako je Terminus-4B treniran?

Kroz dva koraka post-treninga na Qwen3-4B baznom modelu: prvo Supervised Finetuning (SFT) na traceovima terminal izvršavanja, zatim Reinforcement Learning s rubric-based LLM-as-judge nagradom koja ocjenjuje uspješnost izvršenih komandi.

Zašto je 30 % manje tokena glavnog agenta važno?

Glavni agent (npr. Claude Opus) koji svaki build log i test trace gura kroz vlastiti kontekst plaća skupo i u tokenima i u kvaliteti pažnje. Delegacija terminal posla na specijaliziran 4B model čisti glavni kontekst i smanjuje cijenu inferencije.

arXiv:2605.03195: Terminus-4B — 4 milijarde parametara za terminal execution izjednačava Claude Opus i GPT-5.3-Codex na SWE-Bench Pro uz ~30 % niže tokene glavnog agenta

Što je SWE-Bench Pro i zašto je relevantan?

Kako se postiže ~30 % redukcija tokena glavnog agenta?

Što ovo znači za arhitekturu agentskih sustava?

Česta pitanja

Izvori

Povezane vijesti