EnvFactory：以1/5环境数量训练工具调用AI智能体，性能提升15%

EnvFactory是一种自动合成可执行训练环境的新框架，专为工具调用智能体设计。在Qwen3模型上，仅使用85个验证环境即可在BFCLv3上实现+15%、在MCP-Atlas上实现+8.6%的提升——比同类方法少五倍的环境数量。

EnvFactory是什么，为何重要？

EnvFactory是一个用于自动合成可执行环境的新框架，专为训练工具调用智能体而设计——即学习使用外部工具和API的AI系统。来自多所亚洲大学的研究人员解决了该领域长期存在的两大问题：缺乏可扩展的执行环境，以及能反映人类隐式思维的真实训练数据匮乏。

该系统从真实来源自主创建并验证有状态工具，然后生成能反映人类自然查询模式的多步骤训练轨迹——包括SFT（监督微调）和**RL（强化学习）**轨迹。

如何衡量成效？

评估使用两个核心基准：BFCLv3（伯克利函数调用排行榜v3），衡量模型在各种场景下准确调用函数和工具的能力；以及MCP-Atlas，专注于Model Context Protocol的测试集——连接AI智能体与外部服务的标准化协议。

在Qwen3系列模型上，EnvFactory在BFCLv3上实现**+15%的提升，在MCP-Atlas上提升+8.6%。对话基准τ²-Bench和VitaBench额外提升+6%**。

五倍效率——这是真正的突破吗？

将EnvFactory与同类方法区分开来的不仅是准确性，还有效率：它仅使用跨7个领域的85个验证环境，约为同类方法的1/5。由此生成2,575条训练轨迹。拓扑感知采样和校准后的轨迹精炼使训练更加稳健，无需数据量的指数级增长。对业界而言，这意味着：更好的智能体，更低的训练基础设施成本。

常见问题

EnvFactory是什么，有什么用途？

EnvFactory是一个自动创建和验证来自真实来源的有状态工具的框架，然后为工具调用智能体生成多步骤训练轨迹——即学习调用外部工具和API的AI系统。

EnvFactory比现有方法效率高多少？

仅使用7个领域中的85个验证环境——约为同类方法的1/5——并从中生成2,575条训练轨迹，在BFCLv3基准上提升+15%。

EnvFactory在哪些基准上进行了验证？

评估在BFCLv3（伯克利函数调用排行榜）、针对Model Context Protocol的MCP-Atlas测试集，以及对话基准τ²-Bench和VitaBench上进行。

arXiv:2605.18703：EnvFactory——以1/5的环境数量训练工具调用智能体，性能提升15%

EnvFactory是什么，为何重要？

如何衡量成效？

五倍效率——这是真正的突破吗？

常见问题

来源

相关新闻