LangChain harness 配置文件：tau2 基准提升 +20pp

LangChain 于 2026 年 4 月 29 日推出了适用于 Deep Agents 的 harness 配置文件系统，允许相同代码在不修改的情况下与 Anthropic、OpenAI 和 Google 模型协同工作。配置文件自动应用模型专属的系统提示、工具和中间件。在 tau2 基准测试中，GPT-5.3 Codex 的准确率从 33% 升至 53%，Claude Opus 4.7 从 43% 升至 53%——研究人员得出结论：统一的 harness 无法对每个模型都达到最优效果。

LangChain 于 2026 年 4 月 29 日为其 Deep Agents 库推出了 harness 配置文件系统。该系统解决了一个在智能体开始在生产环境中切换 LLM 时出现的问题：针对一个模型优化的系统提示、工具和中间件的统一配置，在与另一个模型配合使用时通常表现不佳。LangChain 的结论是：harness 不应该共享——每个模型需要自己的配置文件。

harness 配置文件在 Deep Agent 中改变了什么？

配置文件是一种封装三件事的配置：模型专属的系统提示（结构、语气、示例）、LLM 最能理解的格式的工具集，以及中间件逻辑（例如工具结果如何返回到下一轮对话）。开发者只需在代码中切换配置文件——调用代码保持不变。当前内置配置文件涵盖 Anthropic、OpenAI 和 Google 模型，社区可以为其他供应商贡献自己的配置文件。

tau2 基准的提升幅度究竟有多大？

LangChain 在 tau2 基准上进行了前后对比测试，tau2 是长期规划智能体的标准评估工具。GPT-5.3 Codex 的准确率从 33% 升至 53%（+20 个百分点），Claude Opus 4.7 从 43% 升至 53%（+10 个百分点）。两个模型最终达到相同准确率，但出发点不同。两种情况下的提升幅度都很显著，因为这表明默认的 LangChain harness 对任何一个模型都不是最优的。

这对多模型管道意味着什么？

LangChain 的评论总结了一切：“A single harness can’t be optimal for every model.”（单一 harness 无法对每个模型都达到最优效果。）在生产环境中并行使用多个模型的开发团队（例如使用 Claude 进行推理、GPT 进行编程、Gemini 处理多模态任务）现在可以使用相同的 Deep Agents 架构，无需重写代码即可获得数十个百分点的提升。这一方法契合更广泛的智能体基础设施层行业趋势：本周 AWS Bedrock AgentCore、Anthropic Claude Code 和 Mistral Vibe 都朝着同一方向发展——在保持供应商灵活性的同时标准化智能体技术栈。

常见问题

LangChain Deep Agents 中的 harness 配置文件是什么？

包含模型专属系统提示、工具集和中间件选项的配置。开发者根据所使用的 LLM 选择配置文件，相同的调用代码无需修改即可与 Anthropic、OpenAI 和 Google 模型协同工作。

harness 配置文件能提升多少性能？

在 tau2 基准测试中，GPT-5.3 Codex 从 33% 升至 53%（+20 个百分点），Claude Opus 4.7 从 43% 升至 53%（+10 个百分点）。两个模型最终达到相同准确率，但起点不同。

为什么统一 harness 行不通？

不同模型对系统提示、工具格式和中间件逻辑的反应不同。Anthropic 模型偏好结构化的 XML 指令，OpenAI 更适合 function calling 模式，Google 模型有其自身的格式。配置文件为每个模型量身定制这些内容。

LangChain 为 Deep Agents 推出 harness 配置文件：GPT-5.3 Codex 在 tau2 基准上从 33% 跃升至 53%，Opus 4.7 从 43% 升至 53%

harness 配置文件在 Deep Agent 中改变了什么？

tau2 基准的提升幅度究竟有多大？

这对多模型管道意味着什么？

常见问题

来源

相关新闻