ArXiv: HORIZON — AIエージェントが長期タスクで失敗する場所と理由

研究チームがHORIZONを発表した。これは、数十から数百の連続したステップを必要とするタスクにおいて、LLMエージェントがどこで、なぜ失敗するかを体系的に診断する新しいベンチマークである。

主要な発見

HORIZONは最終結果だけでなく、エージェントチェーンにおけるすべての潜在的な障害ポイントを分析する。結果は以下を示している：

累積的な劣化 — 各ステップにわずかなエラー確率があるが、20ステップ以上を経るとほぼ確実に障害が発生する
コンテキストの喪失 — コンテキストウィンドウが埋まるにつれ、エージェントは徐々に元の目標を「忘れる」
誤ったリカバリー — エージェントがミスを犯した際、回復の試みがしばしば状況を悪化させる

なぜ重要なのか

既存のベンチマークの大半は、短いタスク（5〜10ステップ）でエージェントをテストしている。しかし現実世界では——自律的なコーディング、リサーチ、プランニング——タスクは数十から数百のステップを含む。HORIZONは、短いベンチマークでの印象的な結果が長期タスクでの信頼性を意味しないことを示している。

実践的な示唆

研究結果は、現在のエージェントAIアプローチには、より大きなモデルやより長いコンテキストウィンドウではなく、コンテキスト管理とエラーリカバリーにおける根本的な変革が必要であることを示唆している。

ArXiv: HORIZON — AIエージェントが長期タスクで失敗する場所と理由

主要な発見

なぜ重要なのか

実践的な示唆

出典

関連ニュース