🟡 🤝 エージェント 2026年5月1日金曜日 · 3 分で読めます ·

WindowsWorldベンチマーク:主要な計算機操作エージェントはマルチアプリ横断タスクで成功率21%未満

編集イラスト:デスクトップ画面上に複数のウィンドウが開き、アプリケーション間をワークフローの矢印が結んでいる

WindowsWorldは、16の職種に基づいて17のデスクトップアプリケーション全体で181タスク(平均5.0サブゴール)をテストする新しい自律型GUIエージェントのベンチマークです。主要な計算機操作エージェントはアプリケーションをまたぐタスクで成功率21%未満にとどまり、OSWorldのような単一アプリ孤立テストと実際の専門的な複数アプリ条件推理ワークとの間の大きなギャップを明らかにしています。

ハルビン工業技術大学の研究チーム(Jinchao Li、Yunxin Li、Chenrui Zhao、Zhenran Xu、Baotian Hu、Min Zhang)は2026年4月30日、ArXivに自律型GUIエージェントの新しいベンチマークを発表しました。WindowsWorldは、単一アプリ内の孤立タスクから複数プログラムの境界を越えたリアルなプロフェッショナルワークへとフォーカスを移し、主要な計算機操作エージェントがこうしたタスクで成功率21%未満であることを明らかにしています。

WindowsWorldはOSWorldと何を違う方法で測定しているのか?

OSWorldや関連ベンチマークは主に単一アプリケーション内でエージェントを評価します——ブラウザを開く、ダブルクリックする、フォームに入力するなどです。WindowsWorldは明示的にマルチアプリワークフローをカバーしています——例えば、Excelスプレッドシートからデータを抽出し、メールクライアントでメール草稿を作成し、プレゼンテーションツールで結果をまとめたスライドを作る、これをすべて1つのタスクとして行います。181タスクの78%は本質的にマルチアプリケーションであり、平均タスクには17の異なるデスクトップアプリケーション全体で5.0のサブゴールがあります。タスクは16の職業ロールが誘導するマルチエージェントフレームワークで生成され、その後人手レビューを経てシミュレート環境で実行されます。

なぜ3つ以上のアプリをまたぐとエージェントは失敗するのか?

著者らの主要な実験的知見はベンチマーク間で一貫していません。主要エージェントは単一アプリタスクでは良い成績を収めますが、マルチアプリワークフローでは成功率が21%未満に落ちます。具体的な問題は、3つ以上のアプリケーション間での条件推理(conditional judgment)です——エージェントは早期のサブゴールで行き詰まるか、同じステップを繰り返します。もう一つの問題は実行効率の低さです。エージェントは人間のステップ数の上限を超えているにもかかわらず、タスクを完了できません。つまり、問題はステップ数だけでなく、プログラム間のコンテキスト遷移を通じて状態を維持する能力にあります。

オフィス作業へのエージェント適用への示唆

計算機操作エージェントはAI製品の中で最も急成長している分野の一つです——Anthropic、OpenAI、Google DeepMindはいずれもエージェントをルーティンなオフィス作業の代替として積極的にプロモートしています。WindowsWorldは、現世代のエージェントが実際の日常的なプロフェッショナルワークに特有の複数アプリタスクを信頼性高く実行するにはまだ程遠いことを示しています。このベンチマークは、SWE-benchがコーディングエージェントの方向性を定義したのと同様に、次世代エージェントの現実的な発展指標となりえます。

よくある質問

WindowsWorldはいくつのタスクとアプリケーションをカバーしていますか?
ベンチマークには181タスクが含まれており、17種類の一般的なデスクトップアプリケーション全体でタスクあたり平均5.0のサブゴールがあります。タスクの78%は本質的にマルチアプリケーションです。
最高性能のGUIエージェントの成功率はどの程度ですか?
テストされた主要な計算機操作エージェントはすべて、マルチアプリタスクで成功率21%未満でした——単一アプリの孤立テストより大幅に低い結果です。
WindowsWorldはOSWorldとどう違うのですか?
OSWorldや類似のベンチマークは主に単一アプリ内の孤立したタスクを測定しますが、WindowsWorldはプロフェッショナルな作業に典型的な条件分岐を伴うクロスアプリケーションワークフローに特化しています。
🤖

この記事はAIにより一次情報源から生成されました。