代码作为代理工具：范式转变（arXiv:2605.18747）

来自UIUC和NVIDIA的41位研究人员认为，代码不仅仅是LLM的输出，而是代理工具——将推理、行动和验证统一在一个构建可靠AI系统的框架中的操作底层。

来自UIUC、NVIDIA及合作机构的41位研究人员团队发布了一篇综述，重新定义了代码在AI系统中的角色：代码不仅仅是LLM生成的内容——代码是代理在其中思考、行动和验证自身结论的基础设施。

什么是代理工具？

在经典LLM使用中，模型接收查询并返回文本。在代理工具范式中，代码承担三个相互交织的功能。作为工具接口，它定义代理与环境之间的接口——明确哪些动作可用、如何建模状态以及代理如何接收反馈信号。作为工具机制，它在可重现和可审计的可执行框架内实现规划、内存管理和工具使用。作为多代理底层，共享代码成为多个代理之间协调的媒介——一个代理可以通过共享代码作为共同真实语言来审查、测试或反驳另一个代理的结论。

这种三层架构意味着代码执行错误不是失败——而是信号。从沙盒接收到AssertionError或TypeError的LLM会获得确定性反馈，可用于纠正推理，而非模糊的主观评估。

为何这是范式转变？

以前的框架将「推理」（LLM在文本中做什么）与「行动」（代理在环境中做什么）分开。这篇论文认为这是一个虚假的边界——可执行代码统一了两者。当代理编写搜索解空间的Python循环时，它同时在规划（代码结构）、行动（执行）和验证（assert语句、测试）。思考与验证之间没有停顿。

研究人员强调，这从最简单的代码助手到具身机器人都适用：在所有领域，代码是使代理行为可重复、可转移和可审计的共同分母。他们认为，代码是唯一同时满足所有三个条件的形式化底层。

哪些问题仍然开放？

作者确定了六个关键挑战。代理评估仍然过度依赖任务指标而非推理过程本身的质量。不完整反馈条件下的验证——当沙盒无法覆盖所有边缘情况时——仍未解决。防止回归尤为突出：如何确保学习了新技能的代理不会降级旧技能？在多代理环境中，通过共享代码管理一致的全局状态带来了根本性的同步挑战。最后，对于安全关键型应用，人类监督必须嵌入工具本身——这是一个架构问题，而非仅仅是程序性问题。

这篇论文为构建代理的研究人员和工程师提供了独特框架：与其问「我应该使用哪个LLM」，更恰当的问题是「如何构建工具，使代码成为模型与现实世界之间可靠的媒介」。

常见问题

什么是代理工具，为何代码是理想选择？

代理工具是为LLM提供推理结构、行动工具和结果验证机制的操作底层。代码是理想选择，因为它形式精确、机器可执行，并自然地描述了状态、动作和反馈——代理关闭推理和验证循环所需的一切。

可执行代码如何改善LLM推理？

与其让LLM生成无法验证的自由文本，代码迫使模型明确记录步骤（规划），允许在沙盒中运行（验证），并返回关于正确性的确定性信号。执行错误是信号——而非失败。这将推理从潜在空间转移到可审计和可纠正的空间。

代码作为代理工具的范式涵盖哪些领域？

研究人员分析了代码助手、GUI/OS自动化、具身代理（机器人、仿真）、科学发现、个性化系统、DevOps和企业工作流中的应用。共同点始终如一——可执行代码作为LLM与环境之间的接口。

arXiv:2605.18747：代码作为操作底层——AI代理的新范式

什么是代理工具？

为何这是范式转变？

哪些问题仍然开放？

常见问题

来源

相关新闻