MSR：1000台合成计算机助力长视程代理训练

Microsoft Research提出了一种生成1000个真实合成计算环境（含完整文件夹层级和文档）的方法论。每个环境中两个代理协同工作——一个根据用户配置文件创建特定的生产力目标，另一个通过平均超过2000步、历时8小时以上的操作序列来完成这些目标。作者声称该方法原则上可扩展至数十亿个合成世界，为代理自我提升提供了基础底层。

Microsoft Research（Tao Ge、Baolin Peng、Hao Cheng、Jianfeng Gao）的研究人员提出了一种生成真实合成计算环境的方法论，用于模拟超出现有代理基准测试范围的生产力工作流。这项工作的核心是基础设施层面的——提供一个底层平台，使长视程代理能够在超越手工整理数据集规模的情况下进行训练和评估。

“合成计算机”究竟是什么？

每台合成计算机包含真实的文件夹层级结构，以及文档和工件，模拟真实的工作环境——不是无菌的沙盒，而是具有上下文关联内容的文件系统。两个代理在这一空间中协作：

生成器根据环境的用户配置文件创建特定的生产力目标——“需要多个专业可交付成果和大约一个月人工工作量”的任务。
执行器扮演用户角色，在计算机中工作——浏览文件、创建新工件，并在较长时间段内持续执行任务。

关键数据是什么？

三个核心指标定义了这项工作的框架：

共生成1000台合成计算机
每次仿真平均超过2000步
完成单次仿真需要超过8小时的代理工作时间

这与SWE-Bench、GAIA或AgentBench等先前代理基准测试存在显著差异——这些测试中的单个任务很少超过几十步。长视程维度至关重要——作者试图针对能够无需人工干预、自主工作数小时的代理类别。

可以扩展到多大规模？

该工作的核心论点是基础设施的可扩展性。作者声称，该方法论”原则上在充足计算资源下可以扩展至数百万乃至数十亿个合成用户世界”。这将覆盖多样化的职业和上下文——从工程工作流到营销计划再到行政任务——这是训练能够泛化到开发者沙盒有限任务集之外的代理的先决条件。

作者将这项工作定位为”代理自我提升的基础底层”——代理可以在模拟世界中生成自己的训练数据，并根据自身错误进行修正。如果这一方法被证明是可复现的，这可能是下一代生产力AI系统的关键组成部分之一：不仅是更好的模型，还有用于训练模型的合成体验程序化经济体系。

常见问题

本文中的合成计算机是什么？

具有真实文件夹层级、文档和工件的逼真模拟计算环境。目标是让AI代理能够像真实用户一样在其中工作——浏览文件系统、创建工件并执行生产力任务。

仿真持续多长时间？

每次仿真平均超过2000步、代理工作时间超过8小时。这比大多数以几十步为目标的先前代理基准测试要长得多。

扩展计划如何？

作者认为，在充足计算资源的情况下，该方法原则上可以扩展至数百万乃至数十亿个合成用户世界，覆盖多样化的职业和上下文场景。

Microsoft Research Synthetic Computers：1000台合成计算机作为长视程生产力AI代理训练的基础底层

“合成计算机”究竟是什么？

关键数据是什么？

可以扩展到多大规模？

常见问题

来源

相关新闻