arXiv:2606.27288: 组合LLM何时真正有效——67个前沿模型的共同失败上限
对来自21家提供商的67个前沿模型的研究引入了共同失败上限概念——LLM集成准确率的上界,由所有模型在同一查询上失败的比率决定。结果表明,若无查询级路由,组合模型鲜少超越单一最强模型。
🤖
本文由人工智能基于一手来源生成。
什么是共同失败上限?
LLM集成——通过投票、路由或混合专家架构组合多个语言模型的系统——在准确率上存在数学上限。研究人员Josef Chen将共同失败上限beta定义为集成中所有模型同时在某一查询上失败的比率:组合系统的准确率不能超过1 − beta,与模型数量无关。
实践中的上限有多高?
对来自21家提供商的67个前沿模型的分析表明,beta始终高于标准统计模型的预测。在开放数学任务上,实测beta值为0.052,而理论模型预测仅为0.023——几乎被低估2.5倍(90%置信区间:1.7倍至3.4倍)。在编码任务上,beta升至0.079;将GPQA-Diamond问题从多选题重新格式化为开放式问答后达到0.127。
组合什么时候有效,什么时候无效?
错误相关性低的异质集成在相同质量水平上优于同质的自我混合专家配置。但若没有查询级路由——将每个查询定向至最适合它的模型——组合系统很少能击败简单选择的单一最强模型。成对错误相关性这一常见的集成诊断指标,无法揭示共同失败率,因此低估了真实上限。
本文于2026年6月25日提交。
常见问题
- 什么是共同失败上限,为什么它很重要?
- 共同失败上限(beta)是集成中所有模型在同一查询上同时失败的比率——系统准确率无法超过1减去beta,无论添加多少个模型。
- LLM组合何时真正带来收益?
- 当模型在不同查询上失败而不是共享相同弱点时才有收益。识别哪个模型擅长哪类查询的查询级路由,仍是超越单一最强模型的唯一可靠途径。