arXiv:2605.15040 Orchard: 开源智能体框架通过三种专用训练方案在 SWE-bench Verified 上达到 67.5%
Orchard 是一个新的开源智能体建模框架,由 Baolin Peng、Wenlin Yao 及 12 位联合作者于 2026 年 5 月 14 日发布在 arXiv 上。该框架将轻量级环境层与三种专用训练方案相结合——SWE(软件工程)、GUI(视觉语言)和 Claw(个人助理)。Orchard-SWE 变体经强化学习训练后在 SWE-bench Verified 上达到 67.5%,成为编码智能体领域最先进的开源方案。
本文由人工智能基于一手来源生成。
Baolin Peng、Wenlin Yao 及 12 位联合作者于 2026 年 5 月 14 日在 arXiv 上发布了 Orchard——一个用于可扩展智能体建模的开源框架。该研究旨在填补开源基础设施的空白:闭源智能体主导基准测试,而开源社区需要一个能够支持训练(而非仅编排)的高质量技术栈。
Orchard 架构提供哪些能力?
该框架由三个组件构成:
- Orchard Env — 轻量级环境层,通过「可复用原语」管理跨不同任务类型的沙盒生命周期,无需繁重编排。
- 三种专用训练方案 — SWE(软件工程任务)、GUI(视觉语言界面)、Claw(个人助理场景)。每种方案针对其任务类型进行优化。
- 训练创新 — 信用分配 SFT(从不完整轨迹中学习)和平衡自适应展开(用于智能体训练的新强化学习算法)。
该方案在架构上有别于 LangChain/CrewAI 的传统思路:Orchard 不以工作流管理(智能体如何调用工具和管理状态)为核心,而是将可扩展智能体训练作为主要功能。
SWE-bench 67.5% 的结果具体意味着什么?
Orchard-SWE 变体经强化学习训练后在 SWE-bench Verified 上达到 67.5%。这一数字意义重大,因为 SWE-bench Verified 是经过筛选的子集,排除了有问题的测试用例,是评估真实编码任务的严格基准。开源模型在没有闭源前沿模型支撑的情况下,很少在 SWE-bench Verified 上超过 60%;而 Orchard-SWE 凭借开源训练技术栈和开放权重模型实现了这一目标。
三种训练方案如何并行运作?
SWE 方案专门训练智能体处理软件工程任务:读取代码库、撰写 PR、使用 shell 工具、调试。GUI 方案训练视觉语言智能体在浏览器/桌面界面中执行操作——点击、滚动、读取截图、导航应用程序。Claw 方案面向个人助理任务:文件管理、日程安排、多步骤用户意图理解。
多域方案将 Orchard 定位为厂商专有技术栈(Anthropic Computer Use、OpenAI Codex CLI)的替代方案——一个框架,三个领域,完全开源。
在开源智能体生态系统中的定位
此次发布契合智能体领域密集发布的一周:LangChain Labs(5 月 14 日,应用研究项目)、GitHub Copilot App 技术预览版(5 月 14 日)、IBM Forward Deployed Units(5 月 14 日)。Orchard 是学术研究的平衡力量——为社区提供不受厂商控制的开源基础。训练方案和 Orchard-SWE 权重很可能将开放发布——这将为开源社区在未来数月内追赶闭源智能体基准测试铺平道路。
常见问题
- Orchard 与 LangChain 或 CrewAI 有何不同?
- 传统编排框架(LangChain、CrewAI)专注于工作流管理——智能体如何调用工具并管理状态;Orchard 则将重点放在可扩展的智能体训练与实际模型优化上,而非仅进行工作流编排。
- Orchard 框架的架构是什么?
- 三个组件:Orchard Env(跨不同任务类型的沙盒生命周期管理)、三种专用方案(SWE、GUI、Claw)以及训练创新——用于从不完整轨迹中学习的信用分配 SFT,以及用于强化学习的平衡自适应展开算法。