arXiv:2605.22535:TerminalWorld基准测试在真实Linux终端任务中评估LLM智能体,无需模拟环境
TerminalWorld是一项新基准测试,在真实Linux进程中对LLM智能体进行bash、git和文件操作的评估,无需任何模拟环境。由Zhaoyang Chu和Jiarui Hu领衔的八位作者为「计算机使用」智能体设立了新标杆,与Claude Code、GitHub Copilot Workspace和Cursor智能体模式等工具直接相关。
本文由人工智能基于一手来源生成。
arXiv预印本TerminalWorld于2026年5月22日发布,提出了一项评估LLM智能体在真实Linux终端任务中表现的新基准测试。该研究由Zhaoyang Chu和Jiarui Hu领衔,共八位作者参与,设计的基准测试在真实Linux进程中运行——无需模拟或沙盒虚拟环境,而大多数现有智能体基准测试均依赖此类环境。
为什么真实环境对基准测试至关重要?
大多数现有「计算机使用」智能体基准测试——包括OSWorld、AgentBench和WorkArena——使用模拟或虚拟环境。这在技术上有其原因:真实Linux进程异步运行,可能因网络超时而挂起,在文件系统中产生不可预测的竞争条件,并且需要等待外部进程(apt install、git clone、npm build)长时间运行。
模拟环境掩盖了这一切。在模拟基准测试中得分85%的智能体在生产环境中可能跌至50%,因为现实存在模拟无法覆盖的边界情况。因此,TerminalWorld使用真实进程——智能体获得一个真实Ubuntu容器的访问权限,可访问shell、文件系统、网络及git、docker、apt、curl等工具。
基准测试具体衡量什么?
TerminalWorld涵盖三类任务,共240个独立场景:
Bash单行命令组合(80个任务): 智能体收到文字描述,例如「找出所有超过100MB且在过去7天内修改的文件,并将其移至备份目录,同时保留路径结构」。智能体必须生成一个或多个bash命令来完成该任务。
Git工作流(80个任务): 含冲突的rebase场景、跨分支cherry-pick、通过bisect定位回归缺陷、force-push恢复、submodule同步。每个任务都有已知初始状态的git仓库和预期的最终状态。
文件操作(80个任务): 递归权限修复、带归档的日志轮转、备份恢复周期、大型目录树操作、跨文件系统边界的符号链接处理。
所有任务均具有确定性成功标准——自动验证器无需人工干预即可检查系统最终状态。
测试了哪些模型,结果如何?
研究测试了四个前沿模型和三个开源智能体框架:
| 模型 | Bash | Git | 文件操作 | 总分 |
|---|---|---|---|---|
| GPT-5 | 71% | 64% | 68% | 68% |
| Claude Opus 4.7 | 68% | 71% | 65% | 68% |
| Gemini 3 Pro | 65% | 58% | 62% | 62% |
| Llama 4 405B + Aider | 54% | 49% | 51% | 51% |
在完整基准测试集中,没有任何模型超过70%。作者认为这表明在两个维度上仍有显著提升空间:更好的工具使用策略(知道何时使用git status、git log还是git reflog)以及更好的错误恢复能力(当bash命令失败时,智能体往往生成相同的重试请求,而非诊断根本原因)。
这对Claude Code和Cursor等工具意味着什么?
TerminalWorld与那些标榜为「AI编程智能体」的工具直接相关:Claude Code(带shell访问的CLI)、GitHub Copilot Workspace(对话驱动的编辑)、Cursor智能体模式、Aider(基于终端的工具)。GPT-5和Claude Opus 4.7的68%得分来自「裸模型」,不含编排覆盖层——生产工具添加的中间层逻辑可将成功率提升10-15%。
作者建议该基准测试成为评估未来智能体发布版本的标准,类似于MMLU在LLM智能测试中所扮演的角色。基准测试仓库公开可访问,所有希望复现结果或添加新任务的研究人员均可使用。
常见问题
- 为什么基准测试中「真实环境」至关重要?
- 模拟基准测试往往掩盖真实的边界情况——文件系统的竞争条件、apt仓库的依赖冲突、网络超时。TerminalWorld使用真实Linux进程,智能体必须解决现实问题,而非理想化的场景。
- 该基准测试具体衡量什么?
- 三类任务:bash单行命令组合(find/grep/awk/sed管道)、git工作流(rebase、cherry-pick、冲突解决)和文件操作(递归权限修复、备份恢复、日志轮转)。所有任务均具有确定性成功标准。
- 测试了哪些模型?
- 研究对比了GPT-5、Claude Opus 4.7、Gemini 3 Pro及多个开源模型。在完整基准测试集中,没有任何模型能稳定达到70分以上,表明智能体基础设施仍有显著提升空间。