arXiv TerminalWorld：실제 환경 LLM 에이전트 벤치마크 평가

TerminalWorld는 시뮬레이션 없이 실제 Linux 프로세스에서 bash, git, 파일 작업을 수행하는 LLM 에이전트를 평가하는 새로운 벤치마크입니다. Zhaoyang Chu와 Jiarui Hu가 이끄는 8명의 저자 연구진은 『컴퓨터 사용』 에이전트의 새로운 기준을 제시하며, Claude Code, GitHub Copilot Workspace, Cursor 에이전트 모드 등의 도구와 직접적인 연관성이 있습니다.

arXiv 프리프린트 TerminalWorld는 2026년 5월 22일 공개되어 실제 Linux 터미널 작업에서 LLM 에이전트를 평가하기 위한 새로운 벤치마크를 제안합니다. Zhaoyang Chu와 Jiarui Hu가 이끄는 총 8명의 저자로 구성된 연구진은 실제 Linux 프로세스에서 실행되는 벤치마크를 설계했습니다——기존 대부분의 에이전트 벤치마크가 사용하는 시뮬레이션이나 샌드박스 방식의 모의 환경은 사용하지 않습니다.

벤치마크에서 실제 환경이 중요한 이유는 무엇입니까?

『컴퓨터 사용』 에이전트를 위한 기존 벤치마크의 대부분——OSWorld, AgentBench, WorkArena 포함——은 시뮬레이션 또는 모의 환경을 사용합니다. 이는 기술적인 이유에서 비롯됩니다. 실제 Linux 프로세스는 비동기적으로 실행되고, 네트워크 타임아웃으로 멈출 수 있으며, 파일 시스템에서 예측 불가능한 경쟁 조건을 생성하고, 외부 프로세스(apt install, git clone, npm build) 완료를 장시간 기다려야 합니다.

시뮬레이션은 이 모든 것을 숨깁니다. 시뮬레이션 벤치마크에서 85%를 기록한 에이전트가 프로덕션 환경에서는 50%로 떨어질 수 있습니다. 시뮬레이션이 다루지 않는 엣지 케이스가 현실에 존재하기 때문입니다. 그래서 TerminalWorld는 실제 프로세스를 사용합니다——에이전트는 셸, 파일 시스템, 네트워크, 그리고 git, docker, apt, curl 등의 도구에 접근할 수 있는 실제 Ubuntu 컨테이너 접근 권한을 부여받습니다.

이 벤치마크는 구체적으로 무엇을 측정합니까?

TerminalWorld는 세 가지 작업 범주, 총 240개의 개별 시나리오를 다룹니다.

bash 단일 명령어 조합(80개 작업): 에이전트는 「100MB를 초과하고 지난 7일 내에 수정된 모든 파일을 찾아 경로 구조를 유지하면서 백업 디렉터리로 이동하라」와 같은 텍스트 설명을 받습니다. 에이전트는 이를 수행하는 하나 이상의 bash 명령어를 생성해야 합니다.

git 워크플로우(80개 작업): 충돌이 있는 리베이스 시나리오, 브랜치 간 체리픽, bisect를 통한 회귀 버그 찾기, force-push 복구, 서브모듈 동기화. 각 작업에는 알려진 초기 상태의 git 저장소와 기대되는 최종 상태가 있습니다.

파일 작업(80개 작업): 재귀적 권한 수정, 아카이빙이 포함된 로그 로테이션, 백업-복원 사이클, 대규모 디렉터리 트리 조작, 크로스 파일시스템 경계에서의 심볼릭 링크 처리.

모든 작업에는 결정론적 성공 기준이 있으며, 자동 검증기가 사람의 개입 없이 시스템의 최종 상태를 확인합니다.

어떤 모델들이 테스트되었으며 결과는 어떻습니까?

연구에서는 4개의 프론티어 모델과 3개의 오픈소스 에이전트 프레임워크를 테스트합니다.

모델	Bash	Git	파일 작업	합계
GPT-5	71%	64%	68%	68%
Claude Opus 4.7	68%	71%	65%	68%
Gemini 3 Pro	65%	58%	62%	62%
Llama 4 405B + Aider	54%	49%	51%	51%

전체 벤치마크 세트에서 70%를 초과한 모델은 없습니다. 저자들은 이것이 두 가지 차원에서 상당한 개선 여지가 있음을 나타낸다고 해석합니다. 더 나은 도구 사용 전략(git status 대 git log 대 git reflog 중 언제 무엇을 사용할지 아는 것)과 더 나은 오류 복구(bash 명령어가 실패했을 때 에이전트는 종종 원인을 진단하는 대신 동일한 재시도를 생성함)입니다.

이것은 Claude Code와 Cursor 같은 도구에 어떤 의미가 있습니까?

TerminalWorld는 『AI 코딩 에이전트』를 표방하는 도구들과 직접적으로 연관됩니다. Claude Code(셸 접근 CLI), GitHub Copilot Workspace(대화 기반 편집), Cursor 에이전트 모드, Aider(터미널 기반)가 이에 해당합니다. GPT-5와 Claude Opus 4.7의 68% 점수는 오케스트레이션 오버레이 없는 『순수 모델』에서 나온 것입니다——프로덕션 도구가 추가하는 중간 레이어 로직은 성공률을 10~15% 향상시킬 수 있습니다.

저자들은 이 벤치마크가 미래 에이전트 릴리스 평가의 표준이 되기를 제안하며, LLM 지능 테스트에서 MMLU가 하는 역할과 유사한 위치를 기대합니다. 벤치마크 저장소는 공개되어 있어 결과를 재현하거나 새로운 작업을 추가하고자 하는 모든 연구자가 접근할 수 있습니다.

자주 묻는 질문

벤치마크에서 『실제 환경』이 왜 중요합니까?

시뮬레이션 벤치마크는 실제 엣지 케이스를 숨기는 경향이 있습니다——파일 시스템의 경쟁 조건, apt 저장소의 의존성 충돌, 네트워크 타임아웃 등입니다. TerminalWorld는 실제 Linux 프로세스를 사용하므로 에이전트는 이상화된 문제가 아닌 현실적인 문제를 해결해야 합니다.

이 벤치마크는 구체적으로 무엇을 측정합니까?

세 가지 작업 범주가 있습니다: bash 단일 명령어 조합(find/grep/awk/sed 파이프라인), git 워크플로우(리베이스, 체리픽, 충돌 해결), 파일 작업(재귀적 권한 수정, 백업 복원, 로그 로테이션). 모든 작업에는 결정론적 성공 기준이 있습니다.

어떤 모델들이 테스트되었습니까?

연구에서는 GPT-5, Claude Opus 4.7, Gemini 3 Pro 및 여러 오픈소스 모델을 비교합니다. 전체 벤치마크 세트에서 70% 이상의 안정적인 점수를 달성한 모델은 없었으며, 이는 에이전트 인프라의 개선 여지가 상당함을 나타냅니다.

arXiv:2605.22535：TerminalWorld 벤치마크, 시뮬레이션 없이 실제 Linux 터미널 작업에서 LLM 에이전트를 평가합니다

벤치마크에서 실제 환경이 중요한 이유는 무엇입니까?

이 벤치마크는 구체적으로 무엇을 측정합니까?

어떤 모델들이 테스트되었으며 결과는 어떻습니까?

이것은 Claude Code와 Cursor 같은 도구에 어떤 의미가 있습니까?

자주 묻는 질문

출처

관련 뉴스