🟡 🤝 智能体 2026年4月30日星期四 · 2 分钟阅读 ·

LangChain 为 Deep Agents 推出 harness 配置文件:GPT-5.3 Codex 在 tau2 基准上从 33% 跃升至 53%,Opus 4.7 从 43% 升至 53%

编辑插图:具有可互换配置文件的智能体框架,适用于不同的语言模型

LangChain 于 2026 年 4 月 29 日推出了适用于 Deep Agents 的 harness 配置文件系统,允许相同代码在不修改的情况下与 Anthropic、OpenAI 和 Google 模型协同工作。配置文件自动应用模型专属的系统提示、工具和中间件。在 tau2 基准测试中,GPT-5.3 Codex 的准确率从 33% 升至 53%,Claude Opus 4.7 从 43% 升至 53%——研究人员得出结论:统一的 harness 无法对每个模型都达到最优效果。

LangChain 于 2026 年 4 月 29 日为其 Deep Agents 库推出了 harness 配置文件系统。该系统解决了一个在智能体开始在生产环境中切换 LLM 时出现的问题:针对一个模型优化的系统提示、工具和中间件的统一配置,在与另一个模型配合使用时通常表现不佳。LangChain 的结论是:harness 不应该共享——每个模型需要自己的配置文件。

harness 配置文件在 Deep Agent 中改变了什么?

配置文件是一种封装三件事的配置:模型专属的系统提示(结构、语气、示例)、LLM 最能理解的格式的工具集,以及中间件逻辑(例如工具结果如何返回到下一轮对话)。开发者只需在代码中切换配置文件——调用代码保持不变。当前内置配置文件涵盖 Anthropic、OpenAI 和 Google 模型,社区可以为其他供应商贡献自己的配置文件。

tau2 基准的提升幅度究竟有多大?

LangChain 在 tau2 基准上进行了前后对比测试,tau2 是长期规划智能体的标准评估工具。GPT-5.3 Codex 的准确率从 33% 升至 53%(+20 个百分点)Claude Opus 4.7 从 43% 升至 53%(+10 个百分点)。两个模型最终达到相同准确率,但出发点不同。两种情况下的提升幅度都很显著,因为这表明默认的 LangChain harness 对任何一个模型都不是最优的。

这对多模型管道意味着什么?

LangChain 的评论总结了一切:“A single harness can’t be optimal for every model.”(单一 harness 无法对每个模型都达到最优效果。)在生产环境中并行使用多个模型的开发团队(例如使用 Claude 进行推理、GPT 进行编程、Gemini 处理多模态任务)现在可以使用相同的 Deep Agents 架构,无需重写代码即可获得数十个百分点的提升。这一方法契合更广泛的智能体基础设施层行业趋势:本周 AWS Bedrock AgentCore、Anthropic Claude Code 和 Mistral Vibe 都朝着同一方向发展——在保持供应商灵活性的同时标准化智能体技术栈。

常见问题

LangChain Deep Agents 中的 harness 配置文件是什么?
包含模型专属系统提示、工具集和中间件选项的配置。开发者根据所使用的 LLM 选择配置文件,相同的调用代码无需修改即可与 Anthropic、OpenAI 和 Google 模型协同工作。
harness 配置文件能提升多少性能?
在 tau2 基准测试中,GPT-5.3 Codex 从 33% 升至 53%(+20 个百分点),Claude Opus 4.7 从 43% 升至 53%(+10 个百分点)。两个模型最终达到相同准确率,但起点不同。
为什么统一 harness 行不通?
不同模型对系统提示、工具格式和中间件逻辑的反应不同。Anthropic 模型偏好结构化的 XML 指令,OpenAI 更适合 function calling 模式,Google 模型有其自身的格式。配置文件为每个模型量身定制这些内容。
🤖

本文由人工智能基于一手来源生成。