arXiv TerminalWorld：実環境LLMエージェントベンチマーク

TerminalWorldは、シミュレーション環境を使わずに実際のLinuxプロセスでbash・git・ファイル操作を行うLLMエージェントを評価する新しいベンチマークです。Zhaoyang ChuとJiarui Huが率いる8名の著者による研究は「コンピュータ使用」エージェントの新たな基準を示しており、Claude Code・GitHub Copilot Workspace・Cursorのエージェントモードなどのツールに直接関連しています。

arXivプレプリントTerminalWorldは2026年5月22日に公開され、実際のLinuxターミナルタスクにおけるLLMエージェントの評価のための新しいベンチマークを提案しています。Zhaoyang ChuとJiarui Huが率いる計8名の著者による研究は、実際のLinuxプロセスで動作するベンチマークを設計しました——これまでのほとんどのエージェントベンチマークが使用しているシミュレーションやサンドボックス型の模擬環境は使用していません。

ベンチマークにおいて実際の環境が重要な理由は何ですか？

「コンピュータ使用」エージェントのための既存のベンチマークの多く——OSWorld・AgentBench・WorkArenaを含む——はシミュレーションや模擬環境を使用しています。その理由は技術的なものです。実際のLinuxプロセスは非同期で動作し、ネットワークタイムアウトでハングする可能性があり、ファイルシステムで予測できないレースコンディションが発生し、外部プロセス（apt install・git clone・npm build）の長時間の待機が必要です。

シミュレーションはこれらすべてを隠してしまいます。シミュレーションベンチマークで85%のスコアを獲得したエージェントは、本番環境では50%に落ちることがあります。シミュレーションがカバーしていないエッジケースが現実には存在するからです。そのためTerminalWorldは実際のプロセスを使用しており、エージェントはシェル・ファイルシステム・ネットワーク、およびgit・docker・apt・curlなどのツールにアクセスできる実際のUbuntuコンテナへのアクセスを得られます。

このベンチマークは具体的に何を測定しますか？

TerminalWorldは3つのタスクカテゴリ、合計240の個別シナリオをカバーしています。

bashワンライナーの組み合わせ（80タスク）： エージェントは「100MBを超え、過去7日間に変更されたすべてのファイルを見つけ、パス構造を保ちながらバックアップディレクトリに移動する」といったテキスト説明を受け取ります。エージェントはそれを実行する1つ以上のbashコマンドを生成しなければなりません。

gitワークフロー（80タスク）： 競合を含むrebaseシナリオ・ブランチをまたいだcherry-pick・bisectによるリグレッションバグの特定・force-pushリカバリ・サブモジュールの同期。各タスクは既知の初期状態のgitリポジトリと期待される最終状態を持ちます。

ファイル操作（80タスク）： 再帰的なパーミッション修正・アーカイブ付きログローテーション・バックアップリストアサイクル・大規模ディレクトリツリーの操作・クロスファイルシステム境界でのシンボリックリンク処理。

すべてのタスクは決定論的な成功基準を持っており、自動バリデーターが人間の介入なしにシステムの最終状態を検証します。

どのモデルがテストされ、結果はどうでしたか？

研究では4つのフロンティアモデルと3つのオープンソースエージェントフレームワークをテストしています。

モデル	Bash	Git	ファイル操作	合計
GPT-5	71%	64%	68%	68%
Claude Opus 4.7	68%	71%	65%	68%
Gemini 3 Pro	65%	58%	62%	62%
Llama 4 405B + Aider	54%	49%	51%	51%

完全なベンチマークセットで70%を超えたモデルはありません。著者たちはこれを、2つの次元において大きな改善余地があると解釈しています。より優れたツール使用戦略（git statusとgit logとgit reflogのどれを使うべきかを知ること）と、より優れたエラーリカバリ（bashコマンドが失敗した場合、エージェントは原因を診断する代わりに同じリトライを生成することが多い）です。

Claude CodeやCursorなどのツールにとってどのような意味がありますか？

TerminalWorldは「AIコーディングエージェント」を謳うツールに直接関連しています。Claude Code（シェルアクセス付きCLI）・GitHub Copilot Workspace（チャット駆動の編集）・Cursorエージェントモード・Aider（ターミナルベース）などです。GPT-5とClaude Opus 4.7の68%というスコアはオーケストレーションオーバーレイなしの「ネイキッドモデル」によるものです。本番ツールが追加するミドル層ロジックにより成功率が10〜15%向上する可能性があります。

著者たちはこのベンチマークが将来のエージェントリリースの評価基準となることを提案しており、LLMインテリジェンステストにおけるMMLUと同様の役割を担うことを期待しています。ベンチマークリポジトリは公開されており、結果を再現したり新しいタスクを追加したりしたいすべての研究者がアクセスできます。

よくある質問

ベンチマークにおいて「実際の環境」がなぜ重要なのですか？

シミュレーションベンチマークは実際のエッジケースを隠してしまいます——ファイルシステムのレースコンディション、aptリポジトリの依存関係の競合、ネットワークタイムアウトなどです。TerminalWorldは実際のLinuxプロセスを使用するため、エージェントは理想化された問題ではなく現実の問題を解決しなければなりません。

このベンチマークは具体的に何を測定しますか？

3つのタスクカテゴリがあります：bashワンライナーの組み合わせ（find/grep/awk/sedパイプライン）、gitワークフロー（rebase・cherry-pick・競合解決）、ファイル操作（再帰的なパーミッション修正・バックアップリストア・ログローテーション）。すべてのタスクは決定論的な成功基準を持っています。

どのモデルがテストされましたか？

研究ではGPT-5・Claude Opus 4.7・Gemini 3 Proおよびいくつかのオープンソースモデルを比較しています。完全なベンチマークセットで70%以上の安定したスコアを達成したモデルはなく、エージェントインフラストラクチャには大きな改善余地があることが示されています。

arXiv:2605.22535：TerminalWorldベンチマークがシミュレーションなしで実際のLinuxターミナルタスクにおけるLLMエージェントを評価します

ベンチマークにおいて実際の環境が重要な理由は何ですか？

このベンチマークは具体的に何を測定しますか？

どのモデルがテストされ、結果はどうでしたか？

Claude CodeやCursorなどのツールにとってどのような意味がありますか？

よくある質問

出典

関連ニュース