LangChain harness プロファイル：tau2 ベンチで +20pp 向上

LangChain は 2026 年 4 月 29 日に Deep Agents 向けの harness プロファイルシステムを発表しました。これにより同じコードが変更なしに Anthropic、OpenAI、Google のモデルと連携できます。プロファイルはモデル固有のシステムプロンプト、ツール、ミドルウェアを自動的に適用します。tau2 ベンチマークでは GPT-5.3 Codex が 33% から 53% へ、Claude Opus 4.7 が 43% から 53% へ精度が向上し、研究者たちは単一の harness がすべてのモデルに対して最適にはなれないと結論づけています。

LangChain は 2026 年 4 月 29 日に Deep Agents ライブラリ向けの harness プロファイルシステムを発表しました。このシステムは、エージェントが本番環境で LLM を切り替え始めたときに浮上した問題を解決します。あるモデルで最適に動作するシステムプロンプト、ツール、ミドルウェアの統一設定は、別のモデルでは通常パフォーマンスが低下します。LangChain は harness を共有すべきではないと結論づけており、各モデルには独自のプロファイルが必要です。

harness プロファイルは Deep Agent の何を変えますか？

プロファイルは 3 つの要素をカプセル化した設定です。モデル固有のシステムプロンプト（構造、トーン、例）、LLM が最もよく理解できるフォーマットのツールセット、そしてミドルウェアロジック（たとえばツールの結果が次のターンにどのように返されるか）です。開発者はコードでプロファイルを切り替えるだけで、呼び出しコードはそのままです。現在の組み込みプロファイルは Anthropic、OpenAI、Google のモデルをカバーしており、コミュニティは他のプロバイダー向けのプロファイルを独自に提供できます。

tau2 ベンチマークでの改善はどの程度正確ですか？

LangChain は長期的なエージェント評価の標準ツールである tau2 ベンチマークで前後の比較テストを実施しました。**GPT-5.3 Codex の精度は 33% から 53% へ上昇（+20 パーセントポイント）**し、**Claude Opus 4.7 は 43% から 53% へ（+10 パーセントポイント）**上昇しました。両モデルとも最終的に同じ精度に達しましたが、出発点が異なります。いずれのケースも改善幅は大きく、デフォルトの LangChain harness がどちらのモデルに対しても最適ではなかったことが示されています。

これはマルチモデルパイプラインにとって何を意味しますか？

LangChain のコメントがすべてを要約しています。「A single harness can’t be optimal for every model.」本番環境で複数のモデルを並行して使用している開発チーム（たとえば推論に Claude、コーディングに GPT、マルチモーダルタスクに Gemini）は、コードを書き直すことなく同じ Deep Agents アーキテクチャを使用して数十パーセントポイントの向上を得られるようになりました。このアプローチは、エージェント向けインフラストラクチャ層という広範な業界トレンドに合致しています。今週は AWS Bedrock AgentCore、Anthropic Claude Code、Mistral Vibe が同じ方向性を持っています——プロバイダーの柔軟性を保ちながらエージェントスタックを標準化する方向です。

よくある質問

LangChain Deep Agents における harness プロファイルとは何ですか？

モデル固有のシステムプロンプト、ツールセット、ミドルウェアオプションを含む設定です。開発者は使用する LLM に応じてプロファイルを選択し、同じ呼び出しコードが変更なしに Anthropic、OpenAI、Google のモデルと連携します。

harness プロファイルはどの程度パフォーマンスを向上させますか？

tau2 ベンチマークでは GPT-5.3 Codex が 33% から 53%（+20 パーセントポイント）、Claude Opus 4.7 が 43% から 53%（+10 パーセントポイント）に向上しました。両モデルとも最終的に同じ精度に達しましたが、出発点が異なります。

単一の harness がうまくいかないのはなぜですか？

異なるモデルはシステムプロンプト、ツールフォーマット、ミドルウェアロジックへの反応が異なります。Anthropic のモデルは構造化された XML 指示を好み、OpenAI は function calling スキーマとの相性が良く、Google モデルは独自のフォーマットを持っています。プロファイルはこれらすべてをモデルごとに調整します。

LangChain の Deep Agents 向け harness プロファイル：GPT-5.3 Codex が tau2 ベンチマークで 33% から 53% へ、Opus 4.7 は 43% から 53% へ上昇

harness プロファイルは Deep Agent の何を変えますか？

tau2 ベンチマークでの改善はどの程度正確ですか？

これはマルチモデルパイプラインにとって何を意味しますか？

よくある質問

出典

関連ニュース