arXiv:2605.18703:EnvFactory——以1/5的环境数量训练工具调用智能体,性能提升15%
EnvFactory是一种自动合成可执行训练环境的新框架,专为工具调用智能体设计。在Qwen3模型上,仅使用85个验证环境即可在BFCLv3上实现+15%、在MCP-Atlas上实现+8.6%的提升——比同类方法少五倍的环境数量。
本文由人工智能基于一手来源生成。
EnvFactory是什么,为何重要?
EnvFactory是一个用于自动合成可执行环境的新框架,专为训练工具调用智能体而设计——即学习使用外部工具和API的AI系统。来自多所亚洲大学的研究人员解决了该领域长期存在的两大问题:缺乏可扩展的执行环境,以及能反映人类隐式思维的真实训练数据匮乏。
该系统从真实来源自主创建并验证有状态工具,然后生成能反映人类自然查询模式的多步骤训练轨迹——包括SFT(监督微调)和**RL(强化学习)**轨迹。
如何衡量成效?
评估使用两个核心基准:BFCLv3(伯克利函数调用排行榜v3),衡量模型在各种场景下准确调用函数和工具的能力;以及MCP-Atlas,专注于Model Context Protocol的测试集——连接AI智能体与外部服务的标准化协议。
在Qwen3系列模型上,EnvFactory在BFCLv3上实现**+15%的提升,在MCP-Atlas上提升+8.6%。对话基准τ²-Bench和VitaBench额外提升+6%**。
五倍效率——这是真正的突破吗?
将EnvFactory与同类方法区分开来的不仅是准确性,还有效率:它仅使用跨7个领域的85个验证环境,约为同类方法的1/5。由此生成2,575条训练轨迹。拓扑感知采样和校准后的轨迹精炼使训练更加稳健,无需数据量的指数级增长。对业界而言,这意味着:更好的智能体,更低的训练基础设施成本。
常见问题
- EnvFactory是什么,有什么用途?
- EnvFactory是一个自动创建和验证来自真实来源的有状态工具的框架,然后为工具调用智能体生成多步骤训练轨迹——即学习调用外部工具和API的AI系统。
- EnvFactory比现有方法效率高多少?
- 仅使用7个领域中的85个验证环境——约为同类方法的1/5——并从中生成2,575条训练轨迹,在BFCLv3基准上提升+15%。
- EnvFactory在哪些基准上进行了验证?
- 评估在BFCLv3(伯克利函数调用排行榜)、针对Model Context Protocol的MCP-Atlas测试集,以及对话基准τ²-Bench和VitaBench上进行。