Agent-World:中国人民大学发布AI智能体进化的可扩展环境合成框架
为什么重要
Agent-World是中国人民大学发布的全新研究框架,可自动生成数千种多样化环境用于AI智能体训练。该框架取代了手工制作的基准测试,通过动态场景和智能体与环境的协同进化实现演化式学习。
Agent-World:AI智能体进化的可扩展环境合成框架
中国人民大学的研究人员发布了Agent-World——一个能自动生成多样化环境用于AI智能体训练的框架。这篇由20位作者共同完成的论文提供了一种替代手工制作基准测试的方案,并提出将智能体与环境的协同进化作为实现更鲁棒的智能体智能的路径。
为什么现有基准测试不够充分
当今大多数智能体基准测试都是手工创建的——研究人员自行定义任务、工具和评估标准。这种方法成本高昂、速度缓慢,且很难覆盖自主AI智能体在真实世界中面临的各种场景。在有限任务集上训练的智能体难以泛化到新领域,而边缘案例的覆盖率也极为有限。
Agent-World通过自动化整个链条——从信息来源发现到生成可验证任务——来解决这些问题。这使得同时在数千个不同主题上进行训练的扩展成为可能,这在以往没有庞大人工团队的情况下是难以想象的。
框架的两大核心组件
Agent-World建立在两个主要组件之上。第一个是「环境-任务发现」(Environment-Task Discovery)——该模块自主探索数千个真实世界主题的数据库和工具生态系统,从中合成具有可调难度级别的可验证任务。
第二个组件称为「自进化智能体训练」(Self-Evolving Agent Training),将多环境强化学习(一种智能体通过每步奖励学习的方法)与动态任务合成相结合。这部分自动识别智能体的技能缺口,并在最需要额外练习的地方生成新任务。结果是协同进化——智能体和环境共同成长,任务随着智能体的进步而变得越来越难。
结果与影响
Agent-World的8亿和140亿参数模型在23个具有挑战性的智能体基准测试中超越了封闭的商业基线。分析显示出清晰的扩展规律——多样化环境越多、自进化迭代次数越多,性能就越好。
对于中国乃至更广泛的欧洲AI社区而言,这意味着在无需访问美国封闭模型的情况下,只要具备生成环境的基础设施,就可以训练出高质量的智能体。Agent-World表明,明年智能体研究的重心将从模型设计转向环境设计和可验证任务设计。这是一个低调但重要的范式转变。
本文由人工智能基于一手来源生成。