DART：无需训练的自适应思考预算

DART是一种无需任何训练即可决定AI模型是否需要深度思考的路由方法，可将思考令牌消耗减少15–69%，同时在代码测试中将准确率提升最高22.5分。

混合推理模型与令牌浪费问题

现代混合推理模型——如Claude 3.7 Sonnet或QwQ——可以在两种模式间切换：直接给出简短回答，或通过长链推理生成所谓的思考令牌（仅模型可见的中间推理步骤）。问题在于，模型往往对简单问题也消耗昂贵的思考令牌，不必要地降低推理速度并增加成本。

韩国大学及相关机构的研究人员提出了DART（Draft-Agreement Routing for Training-Free Adaptive Thinking Budgets，无训练自适应思考预算草稿一致性路由），无需任何额外训练步骤即可解决这一问题。

思路简洁优雅：DART首先生成两个廉价的「无思考」草稿（不进行扩展推理的简短回答）。若两者一致→模型直接返回答案。若不一致，DART测量不一致的熵值，并据此动态计算实际所需的思考预算（深度推理的最大令牌数）——不一致程度越高，预算越大。

这一方法完全绕过了对标注数据或梯度更新的需求，适用于0.6B至32B参数的模型，包括仅API访问、无法查看内部架构的场景。

实验结果清晰地支持该方法。在奥林匹克数学（竞赛级基准）上，DART相比总是使用完整思考预算的基线模型，准确率提升最高**+9.0分**，同时将思考令牌消耗减少15至69%。

在代码编写任务上提升更为显著：准确率提升**+22.5分**，令牌消耗减少51至63%。与固定思考预算（无论任务难度始终消耗相同令牌数的标准方法）相比，DART在所有测试场景中均提供了更优的准确率与成本权衡。

思考令牌并不免费：在API模型中按量计费，直接影响延迟。DART为推理系统指明了一条路径——仅在查询难度足以支撑时才消耗昂贵资源——无需微调或训练新模型。代码已公开，且该方法与模型无关，可应用于各种混合推理系统而无需修改模型本身。

常见问题

DART需要额外训练或标注数据吗？

不需要——DART是无训练方法，完全基于两个廉价草稿之间的一致性运作，无需梯度更新、无需标注样本，也无需访问模型内部权重。

DART适用于哪些模型和规模？

DART已在0.6B至32B参数的多个模型系列上测试，即使在仅能通过API访问、无法查看内部架构的情况下同样有效。