arXiv TerminalWorld：真实环境LLM智能体基准测试

TerminalWorld是一项新基准测试，在真实Linux进程中对LLM智能体进行bash、git和文件操作的评估，无需任何模拟环境。由Zhaoyang Chu和Jiarui Hu领衔的八位作者为「计算机使用」智能体设立了新标杆，与Claude Code、GitHub Copilot Workspace和Cursor智能体模式等工具直接相关。

arXiv预印本TerminalWorld于2026年5月22日发布，提出了一项评估LLM智能体在真实Linux终端任务中表现的新基准测试。该研究由Zhaoyang Chu和Jiarui Hu领衔，共八位作者参与，设计的基准测试在真实Linux进程中运行——无需模拟或沙盒虚拟环境，而大多数现有智能体基准测试均依赖此类环境。

为什么真实环境对基准测试至关重要？

大多数现有「计算机使用」智能体基准测试——包括OSWorld、AgentBench和WorkArena——使用模拟或虚拟环境。这在技术上有其原因：真实Linux进程异步运行，可能因网络超时而挂起，在文件系统中产生不可预测的竞争条件，并且需要等待外部进程（apt install、git clone、npm build）长时间运行。

模拟环境掩盖了这一切。在模拟基准测试中得分85%的智能体在生产环境中可能跌至50%，因为现实存在模拟无法覆盖的边界情况。因此，TerminalWorld使用真实进程——智能体获得一个真实Ubuntu容器的访问权限，可访问shell、文件系统、网络及git、docker、apt、curl等工具。

基准测试具体衡量什么？

TerminalWorld涵盖三类任务，共240个独立场景：

Bash单行命令组合（80个任务）： 智能体收到文字描述，例如「找出所有超过100MB且在过去7天内修改的文件，并将其移至备份目录，同时保留路径结构」。智能体必须生成一个或多个bash命令来完成该任务。

Git工作流（80个任务）： 含冲突的rebase场景、跨分支cherry-pick、通过bisect定位回归缺陷、force-push恢复、submodule同步。每个任务都有已知初始状态的git仓库和预期的最终状态。

文件操作（80个任务）： 递归权限修复、带归档的日志轮转、备份恢复周期、大型目录树操作、跨文件系统边界的符号链接处理。

所有任务均具有确定性成功标准——自动验证器无需人工干预即可检查系统最终状态。

测试了哪些模型，结果如何？

研究测试了四个前沿模型和三个开源智能体框架：

模型	Bash	Git	文件操作	总分
GPT-5	71%	64%	68%	68%
Claude Opus 4.7	68%	71%	65%	68%
Gemini 3 Pro	65%	58%	62%	62%
Llama 4 405B + Aider	54%	49%	51%	51%

在完整基准测试集中，没有任何模型超过70%。作者认为这表明在两个维度上仍有显著提升空间：更好的工具使用策略（知道何时使用git status、git log还是git reflog）以及更好的错误恢复能力（当bash命令失败时，智能体往往生成相同的重试请求，而非诊断根本原因）。

这对Claude Code和Cursor等工具意味着什么？

TerminalWorld与那些标榜为「AI编程智能体」的工具直接相关：Claude Code（带shell访问的CLI）、GitHub Copilot Workspace（对话驱动的编辑）、Cursor智能体模式、Aider（基于终端的工具）。GPT-5和Claude Opus 4.7的68%得分来自「裸模型」，不含编排覆盖层——生产工具添加的中间层逻辑可将成功率提升10-15%。

作者建议该基准测试成为评估未来智能体发布版本的标准，类似于MMLU在LLM智能测试中所扮演的角色。基准测试仓库公开可访问，所有希望复现结果或添加新任务的研究人员均可使用。

常见问题

为什么基准测试中「真实环境」至关重要？

模拟基准测试往往掩盖真实的边界情况——文件系统的竞争条件、apt仓库的依赖冲突、网络超时。TerminalWorld使用真实Linux进程，智能体必须解决现实问题，而非理想化的场景。

该基准测试具体衡量什么？

三类任务：bash单行命令组合（find/grep/awk/sed管道）、git工作流（rebase、cherry-pick、冲突解决）和文件操作（递归权限修复、备份恢复、日志轮转）。所有任务均具有确定性成功标准。

测试了哪些模型？

研究对比了GPT-5、Claude Opus 4.7、Gemini 3 Pro及多个开源模型。在完整基准测试集中，没有任何模型能稳定达到70分以上，表明智能体基础设施仍有显著提升空间。

arXiv:2605.22535：TerminalWorld基准测试在真实Linux终端任务中评估LLM智能体，无需模拟环境

为什么真实环境对基准测试至关重要？

基准测试具体衡量什么？

测试了哪些模型，结果如何？

这对Claude Code和Cursor等工具意味着什么？

常见问题

来源

相关新闻