🟢 📦 开源 发布于: · 3 分钟阅读 ·

arXiv:2605.15706 可微分智能体混合:动态路由智能体激活在9个基准测试中达SOTA

arXiv:2605.15706 ↗

Editorial illustration: neural network routing graf s LLM agentima i sparse activation indicator-ima.

可微分智能体混合(Differentiable Mixture-of-Agents)是由Xingjian Wu、Junkai Lu、Siyu Yan、Xiangfei Qiu、Jilin Hu、Chenjuan Guo和Bin Yang于2026年5月15日发布的arXiv论文,提出了一种用于多智能体LLM协作的可微分路由机制。系统在推理步骤中动态选择并激活智能体,取代固定拓扑结构,在9个基准测试中达到SOTA,并通过预测熵自监督实现无需外部标注的测试时自适应。

🤖

本文由人工智能基于一手来源生成。

Xingjian Wu、Junkai Lu、Siyu Yan、Xiangfei Qiu、Jilin Hu、Chenjuan Guo和Bin Yang于2026年5月15日在arXiv发布论文,提出可微分智能体混合(Differentiable MoA)——一种新型多智能体LLM协调框架,在推理步骤中动态选择并激活智能体,取代固定的预定义拓扑结构。

固定多智能体拓扑存在什么问题?

经典多智能体LLM框架——AutoGen(微软)、CrewAI、LangGraph、MetaGPT——采用预定义的通信模式。通常情况下:

  • 开发者在开发阶段定义智能体角色
  • 通信流固定(轮询、层级式、广播)
  • 所有智能体对每个查询都处于激活状态,即使某些智能体并不相关
  • 路由决策基于规则或静态配置

问题在于:任务复杂度和智能体相关性因步骤而异。推理第1步可能只需要检索智能体;第5步需要数学智能体和代码智能体;第10步需要安全审查者和最终化智能体。固定拓扑无法高效适应这种逐步变化的流程。

可微分路由的具体工作原理

可微分MoA将智能体选择视为可微分优化问题。核心组件包括:

可微分路由机制

  • 上下文感知——路由决策取决于当前推理状态
  • 循环结构——利用先前推理步骤的记忆进行明智路由
  • 稀疏激活——每步仅激活智能体子集,而非全部
  • 端到端可训练——路由权重通过整个流水线的梯度下降学习

动态激活

  • 逐步路由——哪些智能体处于激活状态的决策在推理轨迹中不断变化
  • 弹性协作——智能体参与可以是部分的(某些仅提供意见,其他进行最终确认)
  • 无静态工作流——系统在训练期间发现最优流程,而非在设计阶段

该方法受到密集模型中专家混合(MoE)架构(Mixtral、DeepSeek MoE)的启发,但应用于智能体层面而非专家层面

通过预测熵实现测试时自适应意味着什么?

论文最具野心的组件是测试时自适应——系统可在推理过程中无需标注数据即可自适应:

  • 预测熵作为自监督信号
  • 高熵=模型对当前推理步骤不确定→路由激活更多智能体以获取额外视角
  • 低熵=模型有把握→路由激活更少智能体以提升效率
  • 优化以无监督方式进行——系统从自身的不确定性中学习

实际意义:

  • 零样本部署——系统无需重新训练即可适应新领域
  • 成本感知扩展——简单查询使用更少算力,困难查询获得更多
  • 鲁棒性——在分布偏移下的性能下降比固定拓扑更平缓

在9个基准测试中达SOTA意味着什么?

论文报告在9个基准测试套件中达到最先进水平。摘要中未详细说明具体基准名称和数值分解,但该方法在四个维度上展示了改进:

  • 性能——主要任务准确率
  • 效率——更低的算力/令牌使用量
  • 鲁棒性——对抗性或分布外条件下的性能下降情况
  • 集成能力——多智能体涌现质量

9个基准SOTA意义重大,因为多智能体论文通常仅针对专项基准(函数调用、推理、检索)。在9个不同评估场景中的泛化能力表明该框架广泛适用,而非专为某类任务设计。

与Argus论文(2605.16217)的区别

两篇论文(在数日内相继发布)均探讨多智能体扩展,但视角不同:

方面Argus可微分MoA
架构搜索器+导航器可微分路由
专业化深度研究通用多智能体
扩展机制并行搜索器每步动态激活
训练方式强化学习合成端到端梯度
测试时训练后静态预测熵自适应

两种方法互补而非竞争——Argus解决并行研究智能体中的冗余问题,可微分MoA解决通用多智能体系统中的静态路由问题。生产部署可以在不同应用场景中同时使用两个框架。

对多智能体框架行业的意义

可微分MoA挑战了当前多智能体框架的设计哲学:

  • AutoGen、CrewAI、LangGraph采用用户定义的工作流——论文表明这是次优选择
  • 动态路由在技术上要求较高,但能带来显著的性能提升
  • 预测熵作为自适应信号是一种优雅的自监督方法,无需监督流水线

本论文契合2026年智能体系统架构创新趋势:Argus证据汇编(5月15日)、CAST案例推理校准(5月14日)、GraphFlow形式化验证(5月15日)、Dual-Dimensional Consistency令牌减少(5月14日)。业界集体认识到暴力扩展智能体规模是低效的——需要动态、稀疏且自适应的架构智慧

下一代多智能体基准(BFCLv3、ToolBench v2、BrowseComp 2026)很可能整合上述所有论文的要素——这意味着当前一代多智能体框架(AutoGen v0.4、CrewAI 0.x)对于面向2027至2028年部署目标的生产系统而言,在架构上已经过时

常见问题

可微分路由与固定多智能体拓扑有何区别?
经典多智能体框架(AutoGen、CrewAI、LangGraph)使用预定义的通信模式,所有智能体始终处于激活状态且通信流在设计阶段固定;可微分MoA采用基于循环结构的上下文感知路由机制,在每个推理步骤中产生稀疏智能体激活——系统自适应地选择与当前推理步骤相关的智能体。
通过预测熵实现测试时自适应是什么意思?
系统在推理过程中使用预测熵作为自监督信号进行优化——当模型不确定时(高熵),路由通过激活更多智能体进行调整;当模型有把握时(低熵),激活更少的智能体以提升效率;此方法无需标注数据进行自适应,可在零样本部署场景中正常工作。