Semantic Router Fusion如何工作？

多个模型并行执行组成面板，裁判模型分析共识和差异，并合成单一最终回答。

合并面板效果提升多少？

在OpenRouter DRACO验证中达到69%，而最佳单一模型为65.3%。

vLLM Semantic Router Fusion：面板加裁判

vLLM推出了Semantic Router Fusion——一种多个模型并行组成面板、由裁判模型分析共识与差异并合成单一回答的基本单元。支持本地vLLM和私有端点，以及Gemini、Kimi、DeepSeek和Claude等公共提供商。在OpenRouter DRACO上的外部验证显示合并面板达到69%，优于最佳单一模型的65.3%，且具备完整的OpenAI API兼容性。

vLLM——流行的大型语言模型服务库——推出了Semantic Router Fusion，一种将多个模型组合成单一回答的机制。

Fusion如何工作？

Fusion是一种模型面板并行执行的基本单元，专门的裁判模型随后分析各回答的共识和差异，并合成一个最终输出。流程有明确的步骤：面板执行、裁判分析、合成和痕迹记录（令牌、错误、路由）。该方式类似于由”模型委员会”做出比任何单一成员更好的决策。

支持哪些模型和接口？

Fusion支持本地vLLM实例和私有端点，也支持Gemini、Kimi、DeepSeek和Claude等公共提供商。提供三条输入路由（vllm-sr/auto、vllm-sr/fusion和请求级插件），具备完整的OpenAI API兼容性，可无缝融入现有集成而无需大幅修改代码。

效果提升多少？

在OpenRouter DRACO基准测试上的外部验证显示，合并面板达到69%，而最佳单一模型为65.3%。这一提升验证了多模型聚合加裁判可以超越任何单独模型的理念，对于准确性比延迟和成本更重要的任务尤为有用。

vLLM：Semantic Router Fusion将模型面板合并，由裁判模型合成单一回答

Fusion如何工作？

支持哪些模型和接口？

效果提升多少？

常见问题

来源

相关新闻