arXiv:2605.22535: TerminalWorld benchmark mjeri LLM agente na stvarnim Linux terminal zadacima bez simulacije
TerminalWorld je novi benchmark koji evaluira LLM agente na stvarnim bash, git i file operacijama u pravim Linux procesima, bez simulacije. Osmoautorski rad pod vodstvom Zhaoyang Chu i Jiarui Hu postavlja novu ljestvicu za 'computer use' agente i direktno je relevantan za alate poput Claude Code, GitHub Copilot Workspace i Cursor agentic modea.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
ArXiv preprint TerminalWorld objavljen 22. svibnja 2026. predstavlja novi benchmark za evaluaciju LLM agenata na stvarnim Linux terminal zadacima. Rad pod vodstvom Zhaoyang Chu i Jiarui Hu, ukupno osam autora, dizajnirao je benchmark koji se odvija u pravim Linux procesima — bez simulacije ili sandboxed mock environmenta koje koriste većina prethodnih agentic benchmark-a.
Zašto je stvarno okruženje ključno za benchmark?
Većina dosadašnjih benchmark-a za “computer use” agente — uključujući OSWorld, AgentBench i WorkArena — koristi simulirane ili mock environment-e. Razlog je tehnički: pravi linux procesi rade asinkrono, mogu zaglaviti na network timeoute, generiraju nepredvidive race conditions u file sustavu, i traže dugotrajno čekanje na vanjske procese (apt install, git clone, npm build).
Simulacija sve to skriva. Agent koji prolazi simulirane benchmark s 85 posto pada na 50 posto u produkciji jer realnost ima edge cases koje simulacija ne pokriva. TerminalWorld zato koristi prave procese — agent dobiva pristup pravom Ubuntu kontejneru s pristupom shell-u, file sustavu, network-u, i alatima poput git, docker, apt, curl.
Što benchmark konkretno mjeri?
TerminalWorld pokriva tri kategorije zadataka, ukupno 240 pojedinačnih scenarija:
Bash one-liner kompozicija (80 zadataka): agent dobiva tekstualni opis poput “pronađi sve fajlove veće od 100 MB modificirane u zadnjih 7 dana i premjesti ih u backup direktorij, čuvajući strukturu putanje”. Mora generirati jedan ili više bash poziva koji to rade.
Git workflow (80 zadataka): rebase scenariji s konfliktima, cherry-pick across branche, bisect za regresione bug-ove, force-push recovery, submodule sync. Svaki zadatak ima git repozitorij u poznatom stanju i očekivani end state.
File operations (80 zadataka): recursive permission fixes, log rotation s archiveiranjem, backup-restore cycles, large directory tree manipulation, symlink handling kroz cross-filesystem boundary.
Svi zadaci imaju deterministički success criterion — automatski validator provjerava finalno stanje sustava bez ljudske intervencije.
Koji modeli su testirani i kakvi su rezultati?
Rad testira četiri frontier modela i tri open-source agentic frameworka:
| Model | Bash | Git | File ops | Total |
|---|---|---|---|---|
| GPT-5 | 71% | 64% | 68% | 68% |
| Claude Opus 4.7 | 68% | 71% | 65% | 68% |
| Gemini 3 Pro | 65% | 58% | 62% | 62% |
| Llama 4 405B + Aider | 54% | 49% | 51% | 51% |
Nijedan model ne prelazi 70 posto na full benchmark setu. Autori interpretiraju ovo da postoji značajan prostor za poboljšanje u dvije dimenzije: bolje tool-use strategije (znati kada koristiti git status vs git log vs git reflog) i bolje error recovery (kad bash naredba padne, agent često generira identičnu retry umjesto da dijagnosticira).
Što ovo znači za alate poput Claude Code i Cursor?
TerminalWorld je direktno relevantan za alate koji se reklamiraju kao “AI coding agent”: Claude Code (CLI s shell pristupom), GitHub Copilot Workspace (chat-driven editing), Cursor agentic mode, Aider (terminal-based). Rezultati 68 posto za GPT-5 i Claude Opus 4.7 dolaze iz “naked” modela bez orchestration overlay-a — produkcijski alati dodaju mid-layer logiku koja može boostati uspjeh za 10-15 posto.
Autori predlažu da benchmark postane standard za evaluaciju budućih agentic releasea, sličan ulozi koju MMLU igra za LLM intelligence testing. Repozitorij benchmark-a je javan i pristupan svim istraživačima koji žele reproducirati rezultate ili dodati nove zadatke.
Česta pitanja
- Zašto je 'stvarno okruženje' važno u benchmarku?
- Simulirani benchmarci često sakrivaju stvarne edge cases — race conditions u file sustavu, dependency conflicte u apt repozitorijima, mrežne timeoute. TerminalWorld koristi prave linux procese pa agent mora rješavati realne probleme, ne idealizirane.
- Što benchmark mjeri konkretno?
- Tri kategorije zadataka: bash one-liner kompozicija (find/grep/awk/sed pipeline), git workflow (rebase, cherry-pick, conflict resolution) i file operations (recursive permission fixes, backup-restore, log rotation). Svi zadaci imaju deterministički success criterion.
- Koji modeli su testirani?
- Rad uspoređuje GPT-5, Claude Opus 4.7, Gemini 3 Pro i nekoliko open-source modela. Nijedan ne dostiže pouzdan score iznad 70 posto na full benchmark setu, što indicira značajan prostor za poboljšanje agentic infrastrukture.
Povezane vijesti
arXiv:2605.22502: Kompiliranjem agentskih workflowa u LLM težine postiže se near-frontier kvaliteta uz 100 puta nižu cijenu
arXiv:2605.22794: MOSS pokazuje agente koji se sami unapređuju mijenjajući vlastiti izvorni kod
Anthropic Claude Code v2.1.149 donosi per-category breakdown u /usage i zatvara PowerShell permission bypass