🟡 🤖 模型 发布于: · 2 分钟阅读 ·

arXiv:2606.23181:DART——无需训练的混合推理模型自适应思考预算

arXiv:2606.23181 ↗

编辑插图:抽象的令牌网络中两条独立决策路径的分支图

DART是一种无需任何训练即可决定AI模型是否需要深度思考的路由方法,可将思考令牌消耗减少15–69%,同时在代码测试中将准确率提升最高22.5分。

🤖

本文由人工智能基于一手来源生成。

混合推理模型与令牌浪费问题

现代混合推理模型——如Claude 3.7 Sonnet或QwQ——可以在两种模式间切换:直接给出简短回答,或通过长链推理生成所谓的思考令牌(仅模型可见的中间推理步骤)。问题在于,模型往往对简单问题也消耗昂贵的思考令牌,不必要地降低推理速度并增加成本。

韩国大学及相关机构的研究人员提出了DART(Draft-Agreement Routing for Training-Free Adaptive Thinking Budgets,无训练自适应思考预算草稿一致性路由),无需任何额外训练步骤即可解决这一问题。

DART如何决定模型是否需要「思考」?

思路简洁优雅:DART首先生成两个廉价的「无思考」草稿(不进行扩展推理的简短回答)。若两者一致→模型直接返回答案。若不一致,DART测量不一致的熵值,并据此动态计算实际所需的思考预算(深度推理的最大令牌数)——不一致程度越高,预算越大。

这一方法完全绕过了对标注数据或梯度更新的需求,适用于0.6B至32B参数的模型,包括仅API访问、无法查看内部架构的场景。

结果:更少令牌,更高准确率

实验结果清晰地支持该方法。在奥林匹克数学(竞赛级基准)上,DART相比总是使用完整思考预算的基线模型,准确率提升最高**+9.0分**,同时将思考令牌消耗减少15至69%

代码编写任务上提升更为显著:准确率提升**+22.5分**,令牌消耗减少51至63%。与固定思考预算(无论任务难度始终消耗相同令牌数的标准方法)相比,DART在所有测试场景中均提供了更优的准确率与成本权衡。

为何这对生产系统重要?

思考令牌并不免费:在API模型中按量计费,直接影响延迟。DART为推理系统指明了一条路径——仅在查询难度足以支撑时才消耗昂贵资源——无需微调或训练新模型。代码已公开,且该方法与模型无关,可应用于各种混合推理系统而无需修改模型本身。

常见问题

DART需要额外训练或标注数据吗?
不需要——DART是无训练方法,完全基于两个廉价草稿之间的一致性运作,无需梯度更新、无需标注样本,也无需访问模型内部权重。
DART适用于哪些模型和规模?
DART已在0.6B至32B参数的多个模型系列上测试,即使在仅能通过API访问、无法查看内部架构的情况下同样有效。