arXiv Orchard：开源智能体 SWE-bench 67.5%

Orchard 是一个新的开源智能体建模框架，由 Baolin Peng、Wenlin Yao 及 12 位联合作者于 2026 年 5 月 14 日发布在 arXiv 上。该框架将轻量级环境层与三种专用训练方案相结合——SWE（软件工程）、GUI（视觉语言）和 Claw（个人助理）。Orchard-SWE 变体经强化学习训练后在 SWE-bench Verified 上达到 67.5%，成为编码智能体领域最先进的开源方案。

Baolin Peng、Wenlin Yao 及 12 位联合作者于 2026 年 5 月 14 日在 arXiv 上发布了 Orchard——一个用于可扩展智能体建模的开源框架。该研究旨在填补开源基础设施的空白：闭源智能体主导基准测试，而开源社区需要一个能够支持训练（而非仅编排）的高质量技术栈。

Orchard 架构提供哪些能力？

该框架由三个组件构成：

Orchard Env — 轻量级环境层，通过「可复用原语」管理跨不同任务类型的沙盒生命周期，无需繁重编排。
三种专用训练方案 — SWE（软件工程任务）、GUI（视觉语言界面）、Claw（个人助理场景）。每种方案针对其任务类型进行优化。
训练创新 — 信用分配 SFT（从不完整轨迹中学习）和平衡自适应展开（用于智能体训练的新强化学习算法）。

该方案在架构上有别于 LangChain/CrewAI 的传统思路：Orchard 不以工作流管理（智能体如何调用工具和管理状态）为核心，而是将可扩展智能体训练作为主要功能。

SWE-bench 67.5% 的结果具体意味着什么？

Orchard-SWE 变体经强化学习训练后在 SWE-bench Verified 上达到 67.5%。这一数字意义重大，因为 SWE-bench Verified 是经过筛选的子集，排除了有问题的测试用例，是评估真实编码任务的严格基准。开源模型在没有闭源前沿模型支撑的情况下，很少在 SWE-bench Verified 上超过 60%；而 Orchard-SWE 凭借开源训练技术栈和开放权重模型实现了这一目标。

三种训练方案如何并行运作？

SWE 方案专门训练智能体处理软件工程任务：读取代码库、撰写 PR、使用 shell 工具、调试。GUI 方案训练视觉语言智能体在浏览器/桌面界面中执行操作——点击、滚动、读取截图、导航应用程序。Claw 方案面向个人助理任务：文件管理、日程安排、多步骤用户意图理解。

多域方案将 Orchard 定位为厂商专有技术栈（Anthropic Computer Use、OpenAI Codex CLI）的替代方案——一个框架，三个领域，完全开源。

在开源智能体生态系统中的定位

此次发布契合智能体领域密集发布的一周：LangChain Labs（5 月 14 日，应用研究项目）、GitHub Copilot App 技术预览版（5 月 14 日）、IBM Forward Deployed Units（5 月 14 日）。Orchard 是学术研究的平衡力量——为社区提供不受厂商控制的开源基础。训练方案和 Orchard-SWE 权重很可能将开放发布——这将为开源社区在未来数月内追赶闭源智能体基准测试铺平道路。

常见问题

Orchard 与 LangChain 或 CrewAI 有何不同？

传统编排框架（LangChain、CrewAI）专注于工作流管理——智能体如何调用工具并管理状态；Orchard 则将重点放在可扩展的智能体训练与实际模型优化上，而非仅进行工作流编排。

Orchard 框架的架构是什么？

三个组件：Orchard Env（跨不同任务类型的沙盒生命周期管理）、三种专用方案（SWE、GUI、Claw）以及训练创新——用于从不完整轨迹中学习的信用分配 SFT，以及用于强化学习的平衡自适应展开算法。

arXiv:2605.15040 Orchard: 开源智能体框架通过三种专用训练方案在 SWE-bench Verified 上达到 67.5%

Orchard 架构提供哪些能力？

SWE-bench 67.5% 的结果具体意味着什么？

三种训练方案如何并行运作？

在开源智能体生态系统中的定位

常见问题

来源

相关新闻