arXiv:2605.15706 可微分智能体混合:动态路由智能体激活在9个基准测试中达SOTA
可微分智能体混合(Differentiable Mixture-of-Agents)是由Xingjian Wu、Junkai Lu、Siyu Yan、Xiangfei Qiu、Jilin Hu、Chenjuan Guo和Bin Yang于2026年5月15日发布的arXiv论文,提出了一种用于多智能体LLM协作的可微分路由机制。系统在推理步骤中动态选择并激活智能体,取代固定拓扑结构,在9个基准测试中达到SOTA,并通过预测熵自监督实现无需外部标注的测试时自适应。
本文由人工智能基于一手来源生成。
Xingjian Wu、Junkai Lu、Siyu Yan、Xiangfei Qiu、Jilin Hu、Chenjuan Guo和Bin Yang于2026年5月15日在arXiv发布论文,提出可微分智能体混合(Differentiable MoA)——一种新型多智能体LLM协调框架,在推理步骤中动态选择并激活智能体,取代固定的预定义拓扑结构。
固定多智能体拓扑存在什么问题?
经典多智能体LLM框架——AutoGen(微软)、CrewAI、LangGraph、MetaGPT——采用预定义的通信模式。通常情况下:
- 开发者在开发阶段定义智能体角色
- 通信流固定(轮询、层级式、广播)
- 所有智能体对每个查询都处于激活状态,即使某些智能体并不相关
- 路由决策基于规则或静态配置
问题在于:任务复杂度和智能体相关性因步骤而异。推理第1步可能只需要检索智能体;第5步需要数学智能体和代码智能体;第10步需要安全审查者和最终化智能体。固定拓扑无法高效适应这种逐步变化的流程。
可微分路由的具体工作原理
可微分MoA将智能体选择视为可微分优化问题。核心组件包括:
可微分路由机制
- 上下文感知——路由决策取决于当前推理状态
- 循环结构——利用先前推理步骤的记忆进行明智路由
- 稀疏激活——每步仅激活智能体子集,而非全部
- 端到端可训练——路由权重通过整个流水线的梯度下降学习
动态激活
- 逐步路由——哪些智能体处于激活状态的决策在推理轨迹中不断变化
- 弹性协作——智能体参与可以是部分的(某些仅提供意见,其他进行最终确认)
- 无静态工作流——系统在训练期间发现最优流程,而非在设计阶段
该方法受到密集模型中专家混合(MoE)架构(Mixtral、DeepSeek MoE)的启发,但应用于智能体层面而非专家层面。
通过预测熵实现测试时自适应意味着什么?
论文最具野心的组件是测试时自适应——系统可在推理过程中无需标注数据即可自适应:
- 预测熵作为自监督信号
- 高熵=模型对当前推理步骤不确定→路由激活更多智能体以获取额外视角
- 低熵=模型有把握→路由激活更少智能体以提升效率
- 优化以无监督方式进行——系统从自身的不确定性中学习
实际意义:
- 零样本部署——系统无需重新训练即可适应新领域
- 成本感知扩展——简单查询使用更少算力,困难查询获得更多
- 鲁棒性——在分布偏移下的性能下降比固定拓扑更平缓
在9个基准测试中达SOTA意味着什么?
论文报告在9个基准测试套件中达到最先进水平。摘要中未详细说明具体基准名称和数值分解,但该方法在四个维度上展示了改进:
- 性能——主要任务准确率
- 效率——更低的算力/令牌使用量
- 鲁棒性——对抗性或分布外条件下的性能下降情况
- 集成能力——多智能体涌现质量
9个基准SOTA意义重大,因为多智能体论文通常仅针对专项基准(函数调用、推理、检索)。在9个不同评估场景中的泛化能力表明该框架广泛适用,而非专为某类任务设计。
与Argus论文(2605.16217)的区别
两篇论文(在数日内相继发布)均探讨多智能体扩展,但视角不同:
| 方面 | Argus | 可微分MoA |
|---|---|---|
| 架构 | 搜索器+导航器 | 可微分路由 |
| 专业化 | 深度研究 | 通用多智能体 |
| 扩展机制 | 并行搜索器 | 每步动态激活 |
| 训练方式 | 强化学习合成 | 端到端梯度 |
| 测试时 | 训练后静态 | 预测熵自适应 |
两种方法互补而非竞争——Argus解决并行研究智能体中的冗余问题,可微分MoA解决通用多智能体系统中的静态路由问题。生产部署可以在不同应用场景中同时使用两个框架。
对多智能体框架行业的意义
可微分MoA挑战了当前多智能体框架的设计哲学:
- AutoGen、CrewAI、LangGraph采用用户定义的工作流——论文表明这是次优选择
- 动态路由在技术上要求较高,但能带来显著的性能提升
- 预测熵作为自适应信号是一种优雅的自监督方法,无需监督流水线
本论文契合2026年智能体系统架构创新趋势:Argus证据汇编(5月15日)、CAST案例推理校准(5月14日)、GraphFlow形式化验证(5月15日)、Dual-Dimensional Consistency令牌减少(5月14日)。业界集体认识到暴力扩展智能体规模是低效的——需要动态、稀疏且自适应的架构智慧。
下一代多智能体基准(BFCLv3、ToolBench v2、BrowseComp 2026)很可能整合上述所有论文的要素——这意味着当前一代多智能体框架(AutoGen v0.4、CrewAI 0.x)对于面向2027至2028年部署目标的生产系统而言,在架构上已经过时。
常见问题
- 可微分路由与固定多智能体拓扑有何区别?
- 经典多智能体框架(AutoGen、CrewAI、LangGraph)使用预定义的通信模式,所有智能体始终处于激活状态且通信流在设计阶段固定;可微分MoA采用基于循环结构的上下文感知路由机制,在每个推理步骤中产生稀疏智能体激活——系统自适应地选择与当前推理步骤相关的智能体。
- 通过预测熵实现测试时自适应是什么意思?
- 系统在推理过程中使用预测熵作为自监督信号进行优化——当模型不确定时(高熵),路由通过激活更多智能体进行调整;当模型有把握时(低熵),激活更少的智能体以提升效率;此方法无需标注数据进行自适应,可在零样本部署场景中正常工作。