Terminus-4B: 4B 모델이 SWE-Bench Pro에서 Opus와 동등

Terminus-4B는 에이전트 시스템의 터미널 실행에 특화된 40억 파라미터의 Qwen3 파인튜닝 모델입니다. SWE-Bench Pro 벤치마크에서 Claude Sonnet/Opus 및 GPT-5.3-Codex 기준선과 동등하거나 이를 능가하며, 장황한 빌드/테스트 로그를 서브에이전트 컨텍스트에 격리함으로써 주 에이전트의 토큰 소비를 약 30% 줄입니다.

Spandan Garg, Vikram Nitin, Yufan Huang은 2026년 5월 4일, 전문화된 소형 모델이 에이전트 시스템의 특정 하위 작업인 터미널 실행에서 프런티어 LLM을 대체할 수 있는지를 검증하는 arXiv 프리프린트를 공개했습니다. Terminus-4B(Qwen3-4B 파인튜닝 모델)는 SWE-Bench Pro 벤치마크에서 Claude Sonnet, Claude Opus, GPT-5.3-Codex 기준선 모델과 동등하거나 일부 경우에는 능가합니다.

SWE-Bench Pro란 무엇이고 왜 관련성이 있나?

SWE-Bench Pro는 AI 에이전트가 GitHub 이슈에서 실제 소프트웨어 엔지니어링 작업을 자율적으로 해결하는 능력을 측정하는 벤치마크입니다. 에이전트는 저장소를 클론하고, 관련 파일을 찾고, 프로젝트를 컴파일하고, 테스트를 실행하고, 전체 테스트 스위트를 통과하는 패치를 제출해야 합니다. 원래 SWE-Bench와의 차이는 SWE-Pro가 독립적인 테스트 세트와 더 엄격한 ‘통과’ 기준을 도입하여 더 까다로운 벤치마크가 되었다는 점입니다.

저자들은 내부 SWE-Bench C# 벤치마크에서도 모델을 추가 테스트하여, 전문화가 훈련 세트에서 대표성이 낮은 언어에도 이전됨을 보여줍니다.

주 에이전트 토큰 약 30% 감소는 어떻게 달성되나?

Terminus-4B는 서브에이전트로서 주 에이전트로부터 모든 빌드, 테스트, 셸 명령을 위임받습니다. 장황한 출력(빌드 로그, 테스트 트레이스, 예외 스택 트레이스)이 서브에이전트 컨텍스트 내에 격리되고, 주 에이전트는 자신의 컨텍스트 창에서 결과 요약만 봅니다. 이로써 품질 동등성을 유지하면서 주 에이전트의 토큰 소비가 약 30% 줄어듭니다.

훈련은 2단계입니다. 먼저 성공적인 터미널 실행 트레이스에 대한 지도 파인튜닝(SFT), 그 다음 사전 정의된 기준에 따라 실행된 명령의 정확성과 안전성을 평가하는 루브릭 기반 LLM-as-judge 보상을 사용한 강화학습입니다.

에이전트 시스템 아키텍처에 무엇을 의미하나?

이 연구는 전문화된 모듈성의 방향을 가리킵니다. 계획에서 셸 명령 실행까지 하나의 프런티어 모델이 모든 것을 하는 대신, 추론을 이끄는 ‘큰 두뇌’와 반복적인 작업을 실행하는 ‘작은 실행자’로 시스템을 나눕니다. Anthropic의 Claude Cowork와 Microsoft의 AutoGen에도 비슷한 아이디어가 있지만, Terminus-4B는 이미 40억 파라미터 모델만으로 터미널 하위 작업에서 프런티어 모델과 완전한 동등성을 달성하기에 충분함을 처음으로 보여줍니다.

이 접근이 다른 하위 작업(브라우저 자동화, 코드 리뷰, 회귀 분류)으로 어디까지 확장될지는 아직 지켜봐야 하지만, 공개 벤치마크 결과는 소형 모델의 전문화가 비싼 프런티어 추론에 대한 진지한 대안임을 시사합니다.

자주 묻는 질문

SWE-Bench Pro란 무엇입니까?

SWE-Bench Pro는 AI 에이전트가 GitHub 이슈에서 실제 소프트웨어 엔지니어링 작업을 자율적으로 해결하는 능력을 측정하는 벤치마크로, 저장소 클론부터 컴파일, 테스트, 테스트 스위트를 통과하는 패치 제출까지를 평가합니다.

Terminus-4B는 어떻게 학습되었습니까?

Qwen3-4B 기본 모델에 대한 2단계 사후 훈련으로 이루어졌습니다. 먼저 터미널 실행 트레이스에 대한 지도 파인튜닝(SFT), 그 다음 실행 명령의 성공을 평가하는 루브릭 기반 LLM-as-judge 보상을 사용한 강화학습입니다.

주 에이전트 토큰 약 30% 절감이 왜 중요합니까?

모든 빌드 로그와 테스트 트레이스를 자신의 컨텍스트에 밀어넣는 주 에이전트(예: Claude Opus)는 토큰과 어텐션 품질 양면에서 비용이 큽니다. 터미널 작업을 전문 4B 모델에 위임하면 주 컨텍스트가 깨끗해지고 추론 비용도 줄어듭니다.

arXiv:2605.03195: Terminus-4B — 40억 파라미터 터미널 실행 모델이 SWE-Bench Pro에서 Claude Opus·GPT-5.3-Codex와 동등, 주 에이전트 토큰 약 30% 절감

SWE-Bench Pro란 무엇이고 왜 관련성이 있나?

주 에이전트 토큰 약 30% 감소는 어떻게 달성되나?

에이전트 시스템 아키텍처에 무엇을 의미하나?

자주 묻는 질문

출처

관련 뉴스