arXiv:2605.18747:代码作为操作底层——AI代理的新范式
来自UIUC和NVIDIA的41位研究人员认为,代码不仅仅是LLM的输出,而是代理工具——将推理、行动和验证统一在一个构建可靠AI系统的框架中的操作底层。
本文由人工智能基于一手来源生成。
来自UIUC、NVIDIA及合作机构的41位研究人员团队发布了一篇综述,重新定义了代码在AI系统中的角色:代码不仅仅是LLM生成的内容——代码是代理在其中思考、行动和验证自身结论的基础设施。
什么是代理工具?
在经典LLM使用中,模型接收查询并返回文本。在代理工具范式中,代码承担三个相互交织的功能。作为工具接口,它定义代理与环境之间的接口——明确哪些动作可用、如何建模状态以及代理如何接收反馈信号。作为工具机制,它在可重现和可审计的可执行框架内实现规划、内存管理和工具使用。作为多代理底层,共享代码成为多个代理之间协调的媒介——一个代理可以通过共享代码作为共同真实语言来审查、测试或反驳另一个代理的结论。
这种三层架构意味着代码执行错误不是失败——而是信号。从沙盒接收到AssertionError或TypeError的LLM会获得确定性反馈,可用于纠正推理,而非模糊的主观评估。
为何这是范式转变?
以前的框架将「推理」(LLM在文本中做什么)与「行动」(代理在环境中做什么)分开。这篇论文认为这是一个虚假的边界——可执行代码统一了两者。当代理编写搜索解空间的Python循环时,它同时在规划(代码结构)、行动(执行)和验证(assert语句、测试)。思考与验证之间没有停顿。
研究人员强调,这从最简单的代码助手到具身机器人都适用:在所有领域,代码是使代理行为可重复、可转移和可审计的共同分母。他们认为,代码是唯一同时满足所有三个条件的形式化底层。
哪些问题仍然开放?
作者确定了六个关键挑战。代理评估仍然过度依赖任务指标而非推理过程本身的质量。不完整反馈条件下的验证——当沙盒无法覆盖所有边缘情况时——仍未解决。防止回归尤为突出:如何确保学习了新技能的代理不会降级旧技能?在多代理环境中,通过共享代码管理一致的全局状态带来了根本性的同步挑战。最后,对于安全关键型应用,人类监督必须嵌入工具本身——这是一个架构问题,而非仅仅是程序性问题。
这篇论文为构建代理的研究人员和工程师提供了独特框架:与其问「我应该使用哪个LLM」,更恰当的问题是「如何构建工具,使代码成为模型与现实世界之间可靠的媒介」。
常见问题
- 什么是代理工具,为何代码是理想选择?
- 代理工具是为LLM提供推理结构、行动工具和结果验证机制的操作底层。代码是理想选择,因为它形式精确、机器可执行,并自然地描述了状态、动作和反馈——代理关闭推理和验证循环所需的一切。
- 可执行代码如何改善LLM推理?
- 与其让LLM生成无法验证的自由文本,代码迫使模型明确记录步骤(规划),允许在沙盒中运行(验证),并返回关于正确性的确定性信号。执行错误是信号——而非失败。这将推理从潜在空间转移到可审计和可纠正的空间。
- 代码作为代理工具的范式涵盖哪些领域?
- 研究人员分析了代码助手、GUI/OS自动化、具身代理(机器人、仿真)、科学发现、个性化系统、DevOps和企业工作流中的应用。共同点始终如一——可执行代码作为LLM与环境之间的接口。