vLLM: Semantic Router Fusion spaja panel modela uz suca koji sintetizira jedan odgovor
vLLM je predstavio Semantic Router Fusion, primitiv u kojem više modela radi paralelno kao panel, a model-sudac analizira konsenzus i razlike te sintetizira jedan odgovor. Podržava lokalne vLLM i privatne endpointe te javne providere poput Gemini, Kimi, DeepSeek i Claude. Vanjska validacija na OpenRouter DRACO pokazala je 69% za spojeni panel naspram 65,3% za najbolji pojedinačni model, uz punu OpenAI API kompatibilnost.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
vLLM, popularna biblioteka za posluživanje velikih jezičnih modela, predstavio je Semantic Router Fusion, mehanizam koji kombinira više modela u jedan odgovor.
Kako Fusion radi?
Fusion je primitiv u kojem se panel modela izvršava paralelno, a poseban model-sudac zatim analizira konsenzus i razlike među odgovorima te sintetizira jedan konačni izlaz. Cijevod ima jasne korake: izvršavanje panela, analiza suca, sinteza i zapis traga (tokeni, greške, ruta). Pristup nalikuje “vijeću” modela koje donosi bolju odluku od bilo kojeg pojedinog člana.
Koje modele i sučelja podržava?
Fusion podržava lokalne vLLM instance i privatne endpointe, ali i javne providere poput Gemini, Kimi, DeepSeek i Claude. Nudi tri ulazne rute (vllm-sr/auto, vllm-sr/fusion i plugin na razini zahtjeva) uz punu OpenAI API kompatibilnost, pa se uklapa u postojeće integracije bez većih izmjena koda.
Koliko poboljšava rezultate?
Vanjska validacija na OpenRouter DRACO benchmarku pokazala je 69% za spojeni panel naspram 65,3% za najbolji pojedinačni model. Dobitak potvrđuje ideju da agregacija više modela uz suca može nadmašiti svaki model zasebno, što je korisno za zadatke gdje je točnost važnija od latencije i troška.
Česta pitanja
- Kako radi Semantic Router Fusion?
- Panel modela izvršava se paralelno, model-sudac analizira konsenzus i razlike te sintetizira jedan konačni odgovor.
- Koliko je spojeni panel bolji?
- Na OpenRouter DRACO validaciji 69% naspram 65,3% za najbolji pojedinačni model.