arXiv TerminalWorld: real-env LLM agent benchmark

TerminalWorld je novi benchmark koji evaluira LLM agente na stvarnim bash, git i file operacijama u pravim Linux procesima, bez simulacije. Osmoautorski rad pod vodstvom Zhaoyang Chu i Jiarui Hu postavlja novu ljestvicu za 'computer use' agente i direktno je relevantan za alate poput Claude Code, GitHub Copilot Workspace i Cursor agentic modea.

ArXiv preprint TerminalWorld objavljen 22. svibnja 2026. predstavlja novi benchmark za evaluaciju LLM agenata na stvarnim Linux terminal zadacima. Rad pod vodstvom Zhaoyang Chu i Jiarui Hu, ukupno osam autora, dizajnirao je benchmark koji se odvija u pravim Linux procesima — bez simulacije ili sandboxed mock environmenta koje koriste većina prethodnih agentic benchmark-a.

Zašto je stvarno okruženje ključno za benchmark?

Većina dosadašnjih benchmark-a za “computer use” agente — uključujući OSWorld, AgentBench i WorkArena — koristi simulirane ili mock environment-e. Razlog je tehnički: pravi linux procesi rade asinkrono, mogu zaglaviti na network timeoute, generiraju nepredvidive race conditions u file sustavu, i traže dugotrajno čekanje na vanjske procese (apt install, git clone, npm build).

Simulacija sve to skriva. Agent koji prolazi simulirane benchmark s 85 posto pada na 50 posto u produkciji jer realnost ima edge cases koje simulacija ne pokriva. TerminalWorld zato koristi prave procese — agent dobiva pristup pravom Ubuntu kontejneru s pristupom shell-u, file sustavu, network-u, i alatima poput git, docker, apt, curl.

Što benchmark konkretno mjeri?

TerminalWorld pokriva tri kategorije zadataka, ukupno 240 pojedinačnih scenarija:

Bash one-liner kompozicija (80 zadataka): agent dobiva tekstualni opis poput “pronađi sve fajlove veće od 100 MB modificirane u zadnjih 7 dana i premjesti ih u backup direktorij, čuvajući strukturu putanje”. Mora generirati jedan ili više bash poziva koji to rade.

Git workflow (80 zadataka): rebase scenariji s konfliktima, cherry-pick across branche, bisect za regresione bug-ove, force-push recovery, submodule sync. Svaki zadatak ima git repozitorij u poznatom stanju i očekivani end state.

File operations (80 zadataka): recursive permission fixes, log rotation s archiveiranjem, backup-restore cycles, large directory tree manipulation, symlink handling kroz cross-filesystem boundary.

Svi zadaci imaju deterministički success criterion — automatski validator provjerava finalno stanje sustava bez ljudske intervencije.

Koji modeli su testirani i kakvi su rezultati?

Rad testira četiri frontier modela i tri open-source agentic frameworka:

Model	Bash	Git	File ops	Total
GPT-5	71%	64%	68%	68%
Claude Opus 4.7	68%	71%	65%	68%
Gemini 3 Pro	65%	58%	62%	62%
Llama 4 405B + Aider	54%	49%	51%	51%

Nijedan model ne prelazi 70 posto na full benchmark setu. Autori interpretiraju ovo da postoji značajan prostor za poboljšanje u dvije dimenzije: bolje tool-use strategije (znati kada koristiti git status vs git log vs git reflog) i bolje error recovery (kad bash naredba padne, agent često generira identičnu retry umjesto da dijagnosticira).

Što ovo znači za alate poput Claude Code i Cursor?

TerminalWorld je direktno relevantan za alate koji se reklamiraju kao “AI coding agent”: Claude Code (CLI s shell pristupom), GitHub Copilot Workspace (chat-driven editing), Cursor agentic mode, Aider (terminal-based). Rezultati 68 posto za GPT-5 i Claude Opus 4.7 dolaze iz “naked” modela bez orchestration overlay-a — produkcijski alati dodaju mid-layer logiku koja može boostati uspjeh za 10-15 posto.

Autori predlažu da benchmark postane standard za evaluaciju budućih agentic releasea, sličan ulozi koju MMLU igra za LLM intelligence testing. Repozitorij benchmark-a je javan i pristupan svim istraživačima koji žele reproducirati rezultate ili dodati nove zadatke.

Česta pitanja

Zašto je 'stvarno okruženje' važno u benchmarku?

Simulirani benchmarci često sakrivaju stvarne edge cases — race conditions u file sustavu, dependency conflicte u apt repozitorijima, mrežne timeoute. TerminalWorld koristi prave linux procese pa agent mora rješavati realne probleme, ne idealizirane.

Što benchmark mjeri konkretno?

Tri kategorije zadataka: bash one-liner kompozicija (find/grep/awk/sed pipeline), git workflow (rebase, cherry-pick, conflict resolution) i file operations (recursive permission fixes, backup-restore, log rotation). Svi zadaci imaju deterministički success criterion.

Koji modeli su testirani?

Rad uspoređuje GPT-5, Claude Opus 4.7, Gemini 3 Pro i nekoliko open-source modela. Nijedan ne dostiže pouzdan score iznad 70 posto na full benchmark setu, što indicira značajan prostor za poboljšanje agentic infrastrukture.

arXiv:2605.22535: TerminalWorld benchmark mjeri LLM agente na stvarnim Linux terminal zadacima bez simulacije

Zašto je stvarno okruženje ključno za benchmark?

Što benchmark konkretno mjeri?

Koji modeli su testirani i kakvi su rezultati?

Što ovo znači za alate poput Claude Code i Cursor?

Česta pitanja

Izvori

Povezane vijesti