vLLM: Semantic Router Fusion kombiniert ein Modell-Panel mit einem Richter, der eine einzige Antwort synthetisiert
vLLM stellte Semantic Router Fusion vor, ein Primitiv, bei dem mehrere Modelle parallel als Panel arbeiten und ein Richtermodell Konsens und Unterschiede analysiert sowie eine einzige Antwort synthetisiert. Es unterstützt lokale vLLM- und private Endpunkte sowie öffentliche Anbieter wie Gemini, Kimi, DeepSeek und Claude. Externe Validierung auf OpenRouter DRACO ergab 69% für das kombinierte Panel gegenüber 65,3% für das beste Einzelmodell, mit voller OpenAI-API-Kompatibilität.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
vLLM, die beliebte Bibliothek zum Serving großer Sprachmodelle, stellte Semantic Router Fusion vor, einen Mechanismus, der mehrere Modelle zu einer einzigen Antwort kombiniert.
Wie funktioniert Fusion?
Fusion ist ein Primitiv, bei dem ein Modell-Panel parallel ausgeführt wird, und ein spezielles Richtermodell anschließend den Konsens und die Unterschiede zwischen den Antworten analysiert und eine einzige abschließende Ausgabe synthetisiert. Die Pipeline hat klare Schritte: Panel-Ausführung, Richteranalyse, Synthese und Trace-Aufzeichnung (Token, Fehler, Route). Der Ansatz ähnelt einem „Rat” von Modellen, der bessere Entscheidungen trifft als jedes einzelne Mitglied.
Welche Modelle und Schnittstellen werden unterstützt?
Fusion unterstützt lokale vLLM-Instanzen und private Endpunkte, aber auch öffentliche Anbieter wie Gemini, Kimi, DeepSeek und Claude. Es bietet drei Eingangsrouten (vllm-sr/auto, vllm-sr/fusion und ein Plugin auf Anfragenebene) mit voller OpenAI-API-Kompatibilität, sodass es ohne größere Codeänderungen in bestehende Integrationen passt.
Wie sehr verbessert es die Ergebnisse?
Externe Validierung auf dem OpenRouter DRACO Benchmark ergab 69% für das kombinierte Panel gegenüber 65,3% für das beste Einzelmodell. Der Gewinn bestätigt die Idee, dass die Aggregation mehrerer Modelle mit einem Richter jedes einzelne Modell übertreffen kann — nützlich für Aufgaben, bei denen Genauigkeit wichtiger ist als Latenz und Kosten.
Häufig gestellte Fragen
- Wie funktioniert Semantic Router Fusion?
- Ein Modell-Panel läuft parallel; ein Richtermodell analysiert Konsens und Unterschiede und synthetisiert eine einzige abschließende Antwort.
- Wie viel besser ist das kombinierte Panel?
- 69% bei der OpenRouter DRACO Validierung gegenüber 65,3% für das beste Einzelmodell.
Verwandte Nachrichten
CNCF: Oracles Spende von 3 Millionen Dollar in OCI-Credits beschleunigt Arm64-Unterstützung in 12+ Projekten
GitHub: Offener Multilingual Repositories Dataset mit 80 Millionen Zeilen und 40 Millionen Repositories
vLLM: Betrieb auf NVIDIA DGX Spark / GB10 Systemen