🤖 24 AI
🟢 🤝 エージェント 2026年4月23日木曜日 · 3 分で読めます

OSWorld研究:コンピュータ操作AIエージェントはタスクの繰り返しで頻繁に失敗する

エディトリアルイラスト:AIエージェント — agenti

なぜ重要か

新しい研究により、一度タスクを成功裏に実行したコンピュータ操作AIエージェントが、同一タスクの繰り返し試行で失敗する可能性があることが明らかになりました。主な原因は、実行の確率的性質、タスク仕様の曖昧さ、エージェント自体の行動のばらつきという3つです。

Gonzalez-Pumariega氏らとXin Eric Wang氏による新しい研究が、コンピュータを操作するAIエージェントの評価における体系的な問題を明らかにしました。タスクを一度成功裏に実行することは、エージェントが2回目も成功するという保証にはなりません。

不安定性の3つの主な原因は何ですか?

研究は、エージェントの信頼性のなさを共同で生み出す3つの要因を特定しています。1つ目は実行の確率的性質——各試行には、インターフェースの読み込み時間のばらつき、モデルのサンプリング結果の違い、オペレーティングシステム状態の微妙な変化など、ランダムな要素が含まれています。

2番目の要因はタスク仕様の曖昧さです。同じタスクが、ある基準では「成功」、別の基準では「失敗」となる複数の方法で実行できるほど不明確に表現されることがあります。

3番目はエージェント自体の行動のばらつき——同一の入力でも、エージェントは常に同一の決定を下すわけではなく、特に長い行動チェーンでは小さな差異が累積的に増大します。

OSWorldベンチマークはどのように問題の発見を助けましたか?

著者らは実際のオペレーティングシステムとアプリケーションでAIエージェントを評価するプラットフォームOSWorldベンチマークで実験を実施しました。主要な方法論的介入は、標準的な1回の測定ではなく、同じタスクを複数回繰り返すことでした。

結果は、あるパスでタスクを解決したエージェントが、次のパスでは行き詰まり、成功しない別の経路に向かったり、ループにはまったりすることを示しています。このような不安定性は、タスクごとにエージェントを1回だけテストするベンチマークでは見えません。

結論として、標準的な評価で報告される成功率の数値は、10回の試行でエージェントが実際に何回成功するかを考慮していないため、過大評価されている可能性があります。

これはエージェント開発にとって何を意味しますか?

コンピュータ操作エージェントを使ったプロダクションシステムを構築するすべての人にとって、実践的な影響は重要です。エージェントが10回の試行中7回成功するなら、本番環境では10人中3人のユーザーが失敗を経験することを意味します——これは多くのユースケースで受け入れられません。

著者らは、平均成功率だけでなく分散も測定する複数回評価を標準とすることを推奨しています。また、曖昧さを減らすためのタスク仕様の改善と、可能な場合はより堅牢で決定論的なインターフェースも提案しています。

研究コミュニティにとっては結果の報告方法の見直しが必要であり、プロダクト構築者にとってはリトライロジック、結果の検証、人間が介入する制御などの追加メカニズムが必要です。

🤖

この記事はAIにより一次情報源から生成されました。