vLLM:Semantic Router Fusion将模型面板合并,由裁判模型合成单一回答
vLLM推出了Semantic Router Fusion——一种多个模型并行组成面板、由裁判模型分析共识与差异并合成单一回答的基本单元。支持本地vLLM和私有端点,以及Gemini、Kimi、DeepSeek和Claude等公共提供商。在OpenRouter DRACO上的外部验证显示合并面板达到69%,优于最佳单一模型的65.3%,且具备完整的OpenAI API兼容性。
本文由人工智能基于一手来源生成。
vLLM——流行的大型语言模型服务库——推出了Semantic Router Fusion,一种将多个模型组合成单一回答的机制。
Fusion如何工作?
Fusion是一种模型面板并行执行的基本单元,专门的裁判模型随后分析各回答的共识和差异,并合成一个最终输出。流程有明确的步骤:面板执行、裁判分析、合成和痕迹记录(令牌、错误、路由)。该方式类似于由”模型委员会”做出比任何单一成员更好的决策。
支持哪些模型和接口?
Fusion支持本地vLLM实例和私有端点,也支持Gemini、Kimi、DeepSeek和Claude等公共提供商。提供三条输入路由(vllm-sr/auto、vllm-sr/fusion和请求级插件),具备完整的OpenAI API兼容性,可无缝融入现有集成而无需大幅修改代码。
效果提升多少?
在OpenRouter DRACO基准测试上的外部验证显示,合并面板达到69%,而最佳单一模型为65.3%。这一提升验证了多模型聚合加裁判可以超越任何单独模型的理念,对于准确性比延迟和成本更重要的任务尤为有用。
常见问题
- Semantic Router Fusion如何工作?
- 多个模型并行执行组成面板,裁判模型分析共识和差异,并合成单一最终回答。
- 合并面板效果提升多少?
- 在OpenRouter DRACO验证中达到69%,而最佳单一模型为65.3%。