vLLM:Semantic Router Fusion이 모델 패널을 합쳐 심판 모델이 단일 응답 합성
vLLM이 Semantic Router Fusion을 선보였습니다. 여러 모델이 패널로 병렬 실행되고 심판 모델이 합의와 차이를 분석하여 단일 응답을 합성하는 기본 단위입니다. 로컬 vLLM과 프라이빗 엔드포인트뿐만 아니라 Gemini, Kimi, DeepSeek, Claude 같은 공개 제공자도 지원합니다. OpenRouter DRACO에서의 외부 검증에서 합쳐진 패널이 69%를 기록하여 최고 단일 모델의 65.3%를 앞섰으며, 완전한 OpenAI API 호환성을 갖추고 있습니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
vLLM——대형 언어 모델 서빙을 위한 인기 라이브러리——이 여러 모델을 하나의 응답으로 결합하는 메커니즘인 Semantic Router Fusion을 선보였습니다.
Fusion은 어떻게 작동합니까?
Fusion은 모델 패널이 병렬로 실행되는 기본 단위이며, 특별한 심판 모델이 응답들의 합의와 차이를 분석한 뒤 단일 최종 출력을 합성합니다. 파이프라인에는 명확한 단계가 있습니다:패널 실행, 심판 분석, 합성, 추적 기록(토큰, 오류, 경로). 이 접근 방식은 어떤 개별 구성원보다 더 나은 결정을 내리는 「모델 위원회」와 유사합니다.
어떤 모델과 인터페이스를 지원합니까?
Fusion은 로컬 vLLM 인스턴스와 프라이빗 엔드포인트뿐만 아니라 Gemini, Kimi, DeepSeek, Claude 같은 공개 제공자도 지원합니다. 세 가지 입력 경로(vllm-sr/auto, vllm-sr/fusion, 요청 수준 플러그인)를 제공하며 완전한 OpenAI API 호환성을 갖추어 대규모 코드 수정 없이 기존 통합에 적용할 수 있습니다.
결과가 얼마나 향상됩니까?
OpenRouter DRACO 벤치마크에서의 외부 검증은 **합쳐진 패널이 69%**를 달성하여 최고 단일 모델의 65.3%를 앞섰음을 보여줬습니다. 이 향상은 심판을 갖춘 다중 모델 집계가 각 모델을 개별적으로 능가할 수 있다는 아이디어를 확인해주며, 지연 시간과 비용보다 정확성이 더 중요한 작업에 유용합니다.
자주 묻는 질문
- Semantic Router Fusion은 어떻게 작동합니까?
- 여러 모델이 패널로 병렬 실행되고 심판 모델이 합의와 차이를 분석하여 단일 최종 응답을 합성합니다.
- 합쳐진 패널은 얼마나 더 나은 성능을 보입니까?
- OpenRouter DRACO 검증에서 69%를 기록하여 최고 단일 모델의 65.3%를 앞섰습니다.