🤖 24 AI
🟡 🤖 모델 2026년 4월 19일 일요일 · 2 분 읽기

YAN:Mixture-of-Experts 플로우 매칭이 3번의 샘플링 단계로 자기회귀 언어 모델 대비 40배 속도 향상 달성

편집 일러스트: 생성 모델의 추상적인 벡터 필드와 병렬 흐름

왜 중요한가

YAN은 Transformer와 Mamba 아키텍처를 Mixture-of-Experts 플로우 매칭 접근법과 결합한 새로운 생성 언어 모델입니다. 3번의 샘플링 단계만으로 자기회귀 모델과 비교 가능한 품질을 달성하며, AR 기준선 대비 40배, 확산 언어 모델 대비 최대 1000배의 속도 향상을 제공합니다. 전역 전송 기하학을 지역 특화 벡터 필드로 분해합니다.

YAN이란 무엇입니까?

YAN은 「MoE 플로우 매칭을 통한 빠른 언어 모델 추론을 향하여」 논문에서 발표된 새로운 언어 모델로, 두 가지 아키텍처를 결합합니다: Transformer(표준 어텐션 기반)와 Mamba(선형 스케일링을 가진 상태 공간 모델). 이 하이브리드는 Mixture-of-Experts(MoE) 플로우 매칭 프레임워크를 구동합니다——토큰별로 자기회귀적으로 생성하는 것이 아니라, 노이즈를 의미 있는 텍스트로 병렬 변환하는 전송 벡터 필드를 학습하는 생성 모델링 접근법입니다.

핵심 혁신은 분해에 있습니다: 단일 전역 흐름 필드 대신 YAN은 MoE 메커니즘을 통해 여러 지역 특화 벡터 필드를 학습합니다. 각 전문가는 잠재 공간의 더 좁은 기하학적 영역을 커버하여, 표준 플로우 매칭 모델이 언어에서 직면하는 비등방성(방향 의존성) 및 다중모달 분포 문제를 해결합니다.

실제 절감 효과는 어느 정도입니까?

수치는 극적입니다:

  • 동일 크기 자기회귀(AR) 기준선 대비 40배 속도 향상
  • 확산 언어 모델 대비 최대 1000배 속도 향상
  • 확산 언어 모델의 수백 단계가 아닌 단 3번의 샘플링 단계
  • 저자 평가에 따르면 AR 모델과 동등한 품질

참고로, 표준 자기회귀 LLM은 전체 모델을 한 번 순전파할 때마다 토큰 하나를 생성합니다. YAN은 3번의 병렬 단계로 전체 시퀀스를 생성합니다——이론적으로는 지연 시간이 선형적으로 증가하지 않으면서 배치 크기를 대폭 늘릴 수 있음을 의미합니다.

왜 이것이 중요할 수 있습니까?

자기회귀 패러다임은 지난 7년간 언어 모델링을 지배해왔습니다——추론이 느림에도 불구하고 이용 가능한 GPU 클러스터에서 훈련하기가 가장 쉽기 때문입니다. 확산 언어 모델(Mercury나 LLaDA 등)은 병렬성을 약속하지만 수백 개의 샘플링 단계가 여전히 비실용적으로 만듭니다.

YAN의 접근법——지역 특화 MoE 전문가를 가진 플로우 매칭——은 확산의 속도를 유지하면서 단계 수를 줄이는 세 번째 길이 될 수 있습니다. 더 큰 규모에서 결과가 재현된다면, 추론 지연 시간이 초가 아닌 밀리초로 계산되는 모델 세대로의 문이 열립니다.

무엇을 증명해야 합니까?

저자 Aihua Li는 논문을 arXiv에 프리프린트로 발표했으며 동료 심사 게재는 명시되지 않았습니다. 주요 미해결 사항:

  • 스케일링: 소규모 모델(수십억 매개변수 이내)의 시연인지, 70B+ 모델에서도 결과가 견고한지?
  • 작업 복잡성: 짧은 시퀀스 생성뿐만 아니라 복잡한 추론과 긴 컨텍스트 작업에서도 YAN이 AR 모델 품질을 달성할 수 있는지?
  • 오픈 소스 코드: 저자가 구현을 공개하면 이 질문들의 상당 부분이 곧 명확해질 것입니다.

현재로서는 YAN이 자기회귀 패러다임에 진지한 경쟁자가 나타났음을 보여주는 이론적으로 흥미로운 신호입니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.