ArXiv AEM：面向多轮强化学习智能体的自适应熵调制

AEM（自适应熵调制）是一种无监督训练方法，通过动态调制多轮对话中的熵来改善强化学习中LLM智能体的探索与利用平衡。在1.5B到32B参数模型上测试，整合到最先进基线后在SWE-bench Verified基准上提升1.4%。

作者团队（赵昊天、张宇鑫、周松林等）发表了AEM（自适应熵调制）——一种通过强化学习（RL）训练智能体LLM的无监督方法，直接解决多轮任务训练不稳定问题。

AEM解决了什么问题？

多轮智能体任务的标准RL方法训练不稳定，因为智能体需要在对话早期和晚期步骤以不同方式平衡探索与利用。在早期步骤，智能体还在探索任务的全貌；在晚期步骤，它已有信号并需要利用最佳解决方案。固定的RL超参数无法捕捉这种动态变化。

标准token级别的熵奖励效果差，因为单个token的熵是多轮探索程度的不良代理指标。

AEM在响应级别而非单个token级别分析熵。作者推导出一个实用代理，通过两个信号引导探索到利用的自然过渡：

该系统不需要监督——不需要手动标注”何时应该探索”，而是自主测量训练状态。

实验覆盖15亿到320亿参数的模型。主要评估在SWE-bench Verified上进行，这是智能体LLM在编程任务上的行业标准。

结果：当AEM集成到最先进基线时实现1.4%的绝对提升。这是扎实但不戏剧性的收益——其意义在于无需额外的监督器或改变基础RL公式。

AEM是过去两周内ArXiv上第五篇关于智能体系统RL训练的论文——与之前的Latent-GRPO和Exploration Hacking并列。该领域正在密集关注多轮训练的稳定化，这是可靠生产智能体的前提条件。AEM的无监督方法对于无法大量收集手动标注训练数据的实验室尤其具有吸引力。

常见问题

在LLM强化学习训练中，熵指什么？

熵是对下一个token或回答选择的不确定性度量——熵越高意味着探索更多不同选项，熵越低意味着利用已学习的模式。

为什么AEM在响应级别而非token级别调制熵？

token级别的熵与多轮智能体行为质量的相关性较差；响应级别的分析提供了更精确的代理指标，用于判断何时从探索转向利用。

什么是SWE-bench Verified？

用于评估智能体LLM在软件工程任务上的行业标准基准——验证对真实GitHub问题的解决方案。