arXiv Orchard: SWE-bench オープンソース 67.5%

Orchard は、Baolin Peng、Wenlin Yao および 12 名の共著者が 2026 年 5 月 14 日に arXiv で発表した新しいオープンソースのエージェントモデリングフレームワークです。このフレームワークは、軽量な環境レイヤーと 3 つの専用トレーニングレシピ（SWE ソフトウェアエンジニアリング、GUI ビジョン言語、Claw 個人アシスタント）を組み合わせています。Orchard-SWE バリアントは RL トレーニング後に SWE-bench Verified で 67.5% を達成し、コーディングエージェント向けの最先端オープンソースソリューションとなっています。

Baolin Peng、Wenlin Yao および 12 名の共著者が 2026 年 5 月 14 日に arXiv で Orchard を発表しました。スケーラブルなエージェントモデリングのためのオープンソースフレームワークです。この研究はオープンソースインフラの空白を埋めることを目標としています。クローズドソースのエージェントがベンチマークを支配する中、オープンコミュニティにはオーケストレーションだけでなくトレーニングを可能にする高品質なスタックが必要です。

Orchard アーキテクチャは何を提供しますか？

フレームワークは3 つのコンポーネントで構成されています。

Orchard Env — 「再利用可能なプリミティブ」を用いて、さまざまなタスクタイプにわたるサンドボックスのライフサイクルを管理する軽量な環境レイヤーです。重いオーケストレーションを必要としません。
3 つの専用レシピ — SWE（ソフトウェアエンジニアリングタスク）、GUI（ビジョン言語インターフェース）、Claw（個人アシスタントシナリオ）。各レシピはそのタスクタイプに最適化されています。
トレーニングの革新 — クレジット割り当て SFT（不完全な軌跡からの学習）と Balanced Adaptive Rollout（エージェントトレーニングのための新しい RL アルゴリズム）。

このアプローチは LangChain/CrewAI の流儀とはアーキテクチャ的に異なります。ワークフロー管理（エージェントがどのようにツールを呼び出し状態を管理するか）を中心とするのではなく、Orchard はスケーラブルなエージェントトレーニングを主要機能として位置づけています。

SWE-bench 67.5% という結果は具体的に何を意味しますか？

Orchard-SWE バリアントは RL トレーニング後に SWE-bench Verified で 67.5% を達成しました。SWE-bench Verified は問題のあるテストケースを排除したキュレーション済みのサブセットであり、実際のコーディングタスクの厳格なベンチマークです。このため、この数字は重要な意味を持ちます。オープンソースモデルがバックエンドにクローズドソースのフロンティアモデルなしで SWE-bench Verified の 60% 以上を達成することはまれです。Orchard-SWE はオープンソースのトレーニングスタックとオープンウェイトモデルでこれを実現しています。

3 つのレシピはどのように並行して機能しますか？

SWE レシピはエージェントをソフトウェアエンジニアリングに特化してトレーニングします。コードベースを読み、PR を書き、シェルツールを使用し、デバッグします。GUI レシピはブラウザ/デスクトップインターフェースで動作するビジョン言語エージェントをトレーニングします。クリック、スクロール、スクリーンショットの読み取り、アプリケーションのナビゲーションを行います。Claw レシピは個人アシスタントタスクを対象としています。ファイル管理、スケジューリング、複数ステップのユーザー意図に対応します。

マルチドメインのアプローチにより、Orchard はベンダー固有のスタック（Anthropic Computer Use、OpenAI Codex CLI）の代替として位置づけられます。1 つのフレームワーク、3 つのドメイン、オープンソースです。

オープンソースエージェントエコシステムにおける位置づけ

今回の発表は、エージェント関連のリリースが相次いだ 1 週間に合わせて展開されました。LangChain Labs（5 月 14 日、応用研究プログラム）、GitHub Copilot App テクニカルプレビュー（5 月 14 日）、IBM Forward Deployed Units（5 月 14 日）などです。Orchard はアカデミックリサーチの対抗軸として、コミュニティにベンダーコントロールされないオープンソースの基盤を提供します。トレーニングレシピと Orchard-SWE の重みが公開される可能性が高く、オープンソースコミュニティが今後数ヶ月でクローズドソースのエージェントベンチマークに追いつく道が開かれるでしょう。

よくある質問

Orchard は LangChain や CrewAI と何が違いますか？

従来のオーケストレーションフレームワーク（LangChain、CrewAI）はワークフロー管理に重点を置いています。つまり、エージェントがどのようにツールを呼び出し、状態を管理するかを中心としています。Orchard は、ワークフローのオーケストレーションだけでなく、実際のモデル最適化を伴うスケーラブルなエージェントトレーニングを主要機能として位置づけています。

Orchard フレームワークのアーキテクチャはどのようなものですか？

3 つのコンポーネントで構成されています。Orchard Env（さまざまなタスクタイプにわたるサンドボックスライフサイクル管理）、3 つの専用レシピ（SWE、GUI、Claw）、そしてトレーニングの革新点として、不完全な軌跡からの学習のためのクレジット割り当て SFT と RL のための Balanced Adaptive Rollout があります。

arXiv:2605.15040 Orchard: オープンソースのエージェントフレームワークが 3 つの専用レシピで SWE-bench Verified 67.5% を達成

Orchard アーキテクチャは何を提供しますか？

SWE-bench 67.5% という結果は具体的に何を意味しますか？

3 つのレシピはどのように並行して機能しますか？

オープンソースエージェントエコシステムにおける位置づけ

よくある質問

出典

関連ニュース