ArXiv研究:インコンテキストプロンプティングが手続き的タスクでLangGraph、CrewAI、Google ADK、OpenAI Agents SDKを上回る
インコンテキストプロンプティングとは、手続き的なワークフロー全体をフレームワークを通じたオーケストレーションではなく、システムプロンプトに直接組み込む設計手法です。条件ごとに200会話を使ったArXiv研究は、この手法が旅行予約・Zoom技術サポート・保険請求処理の3つのドメインでLangGraph、CrewAI、Google ADK、OpenAI Agents SDKを上回ることを示しています。
Simon Dennis、Michael Diamond、Rivaan Patil、Kevin Shabahang、Hao Guoのチームは2026年4月30日にArXivで挑発的なタイトルの論文を発表しました:「インコンテキストプロンプティングが手続き的タスクにおけるエージェントオーケストレーションを時代遅れにする」。彼らが擁護する主張は、今日のフロンティアモデルの高度な能力が、大きなクラスの手続き的マルチターンタスクにおいて外部オーケストレーションフレームワークを不要にするというものです。
なぜインコンテキストプロンプティングはオーケストレーションより優れているのか?
インコンテキスト手法は、手続き的なワークフロー全体——ステップのリスト、分岐条件、出力フォーマット、エスカレーション——を単一モデルのシステムプロンプトに直接組み込みます。オーケストレーションフレームワーク(LangGraph、CrewAI、Google ADK、OpenAI Agents SDK)は同じワークフローをグラフノードに分解し、モデル呼び出しを独立した調整ロジックに委ねます。著者らは、フロンティアモデルが現在、単一の呼び出し内で複雑な手続きに従うのに十分な「自己オーケストレーション」能力を持つ一方、グラフベースのコンテキスト切り替えが失敗率を高める損失を生じさせると主張しています。
3つのドメインと具体的な結果
実験は旅行予約・Zoom技術サポート・保険請求処理の3つのドメインで実施され、条件ごとに200会話と5つの品質基準によるLLM-as-judge評価が行われました。インコンテキストベースラインは4.53〜5.00を達成し、最も近いオーケストレーターのLangGraphは4.17〜4.84で後れを取りました。失敗率の差はさらに明確で、インコンテキストはドメインごとに11.5%、0.5%、5%に対し、オーケストレーションは24%、9%、17%でした。
エージェント構築への示唆
この研究の結論は、オーケストレーションフレームワークが普遍的に不要だと言っているわけではありません——並列フロー、外部メモリ、複数の独立したエージェントを必要とするタスクでは依然として役割があります。しかし、明確なステップを持つ構造的な手続き的タスクに対しては、この研究は設計上のシンプルさ——適切に書かれた単一のシステムプロンプト——がグラフノードより信頼性が高いことを示唆しています。2026年のエージェントスタックへの示唆は、エージェント設計の最初のステップがフレームワークへの移行より前に、インコンテキストプロンプトでの問題解決を試みることであるべきということです。
よくある質問
- 比較されたフレームワークはどれですか?
- LangGraph、CrewAI、Google ADK、OpenAI Agents SDKが、ワークフローをシステムプロンプトに直接組み込むインコンテキストベースラインと比較されました。
- 結果の範囲はどの程度ですか?
- インコンテキスト手法は1〜5スケールで4.53〜5.00を達成し、オーケストレーションフレームワークは4.17〜4.84にとどまりました。失敗率の差はさらに顕著で、ドメインごとに11.5%/0.5%/5% vs 24%/9%/17%でした。
この記事はAIにより一次情報源から生成されました。