vLLM Semantic Router Fusion: Panel und Richter

vLLM stellte Semantic Router Fusion vor, ein Primitiv, bei dem mehrere Modelle parallel als Panel arbeiten und ein Richtermodell Konsens und Unterschiede analysiert sowie eine einzige Antwort synthetisiert. Es unterstützt lokale vLLM- und private Endpunkte sowie öffentliche Anbieter wie Gemini, Kimi, DeepSeek und Claude. Externe Validierung auf OpenRouter DRACO ergab 69% für das kombinierte Panel gegenüber 65,3% für das beste Einzelmodell, mit voller OpenAI-API-Kompatibilität.

vLLM, die beliebte Bibliothek zum Serving großer Sprachmodelle, stellte Semantic Router Fusion vor, einen Mechanismus, der mehrere Modelle zu einer einzigen Antwort kombiniert.

Wie funktioniert Fusion?

Fusion ist ein Primitiv, bei dem ein Modell-Panel parallel ausgeführt wird, und ein spezielles Richtermodell anschließend den Konsens und die Unterschiede zwischen den Antworten analysiert und eine einzige abschließende Ausgabe synthetisiert. Die Pipeline hat klare Schritte: Panel-Ausführung, Richteranalyse, Synthese und Trace-Aufzeichnung (Token, Fehler, Route). Der Ansatz ähnelt einem „Rat” von Modellen, der bessere Entscheidungen trifft als jedes einzelne Mitglied.

Welche Modelle und Schnittstellen werden unterstützt?

Fusion unterstützt lokale vLLM-Instanzen und private Endpunkte, aber auch öffentliche Anbieter wie Gemini, Kimi, DeepSeek und Claude. Es bietet drei Eingangsrouten (vllm-sr/auto, vllm-sr/fusion und ein Plugin auf Anfragenebene) mit voller OpenAI-API-Kompatibilität, sodass es ohne größere Codeänderungen in bestehende Integrationen passt.

Wie sehr verbessert es die Ergebnisse?

Externe Validierung auf dem OpenRouter DRACO Benchmark ergab 69% für das kombinierte Panel gegenüber 65,3% für das beste Einzelmodell. Der Gewinn bestätigt die Idee, dass die Aggregation mehrerer Modelle mit einem Richter jedes einzelne Modell übertreffen kann — nützlich für Aufgaben, bei denen Genauigkeit wichtiger ist als Latenz und Kosten.

Häufig gestellte Fragen

Wie funktioniert Semantic Router Fusion?

Ein Modell-Panel läuft parallel; ein Richtermodell analysiert Konsens und Unterschiede und synthetisiert eine einzige abschließende Antwort.

Wie viel besser ist das kombinierte Panel?

69% bei der OpenRouter DRACO Validierung gegenüber 65,3% für das beste Einzelmodell.

vLLM: Semantic Router Fusion kombiniert ein Modell-Panel mit einem Richter, der eine einzige Antwort synthetisiert

Wie funktioniert Fusion?

Welche Modelle und Schnittstellen werden unterstützt?

Wie sehr verbessert es die Ergebnisse?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten