PyTorch: TokenSpeed-Kernel — 멀티 실리콘 LLM 추론을 위한 이식 가능한 고성능 커널
TokenSpeed-Kernel은 코드 재작성 없이 NVIDIA와 AMD GPU에서 LLM 추론 속도를 최대 3.6배 높이는 오픈소스 3계층 커널 서브시스템으로, 이미 vLLM 추론 프레임워크에 통합되었습니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
TokenSpeed-Kernel이란 무엇이며 왜 중요합니까?
TokenSpeed-Kernel은 코드 재작성 없이 NVIDIA와 AMD 실리콘에서 동등하게 작동하도록 설계된 3계층 오픈소스 커널 서브시스템 — LLM 모델 연산을 직접 관리하는 저수준 GPU 프로그램 세트 — 입니다. PyTorch 팀은 오랜 문제에 대한 해답으로 이를 발표했습니다. 고성능 커널이 단일 칩 제조업체에 묶여 있어 LLM 시스템을 대체 하드웨어로 이식하기 어려웠습니다.
실제 속도 향상은 얼마나 됩니까?
AMD MI355X GPU에서 GPT-OSS 120B 모델로 측정한 결과, 기존 표준 PyTorch 커널 프레임워크인 Triton과 비교하여 추론의 각 단계에서 극적인 개선을 보였습니다.
- Attention prefill(입력 텍스트 처리 단계): Triton 대비 1.4~2.3배 빠름
- MoE decode — MoE(Mixture of Experts)는 토큰당 파라미터의 일부만 활성화하는 아키텍처 — 1.7~2.1배 빠름
- End-to-end throughput(전체 시스템 처리량): 1.6~3.6배 향상
3.6배라는 상한선은 한계적 최적화가 아닙니다. 동일한 하드웨어가 시간당 훨씬 더 많은 사용자 요청을 처리하거나 여러 배 빠르게 응답을 생성할 수 있음을 의미합니다.
3계층 접근 방식은 어떻게 작동합니까?
TokenSpeed-Kernel은 코드를 세 계층으로 나눕니다. 하드웨어 독립적인 공통 인터페이스, NVIDIA 전용 백엔드, AMD 전용 백엔드입니다. 개발자가 어텐션 또는 MoE 패스 연산을 호출하면 시스템이 추가 코드 없이 감지된 GPU에 맞는 올바른 백엔드를 자동으로 선택합니다.
@register_kernel 플러그인 메커니즘은 기업이나 연구자가 동일한 시스템에 통합하여 자체 비표준 실리콘 아키텍처 지원을 추가할 수 있게 합니다.
통합과 접근성
TokenSpeed-Kernel은 표준 Python 패키지(pip install)로 제공되며 이미 PR #46742를 통해 vLLM에 통합되었습니다. vLLM은 수백 개의 프로덕션 시스템에서 사용하는 가장 널리 보급된 오픈소스 LLM 서빙 프레임워크 중 하나입니다. vLLM 사용자는 자체 구성 변경 없이 자동으로 속도 향상의 혜택을 받습니다.
더 넓은 그림: 단일 칩 독점의 종말?
지금까지 고성능 커널은 CUDA 플랫폼을 위해 작성되어 AMD 하드웨어에서 작동하지 않기 때문에 사실상 NVIDIA 생태계의 독점 영역이었습니다. TokenSpeed-Kernel은 이 역학을 바꿉니다. 추론 시스템이 이제 동일한 코드로 NVIDIA와 AMD GPU 간에 투명하게 전환할 수 있어, AI 가속기 시장의 경쟁을 높이고 LLM 프로덕션 인프라에서 단일 공급업체 의존 위험을 줄입니다.
자주 묻는 질문
- GPU 추론 맥락에서 커널이란 무엇입니까?
- GPU 커널은 그래픽 프로세서에서 실행되며 행렬 및 어텐션 연산을 직접 관리하는 저수준 프로그램입니다. 커널 속도는 모델이 초당 생성하는 토큰 수를 직접 결정합니다.
- TokenSpeed-Kernel은 NVIDIA GPU에서만 작동합니까?
- 그렇지 않습니다. TokenSpeed-Kernel은 NVIDIA와 AMD GPU를 위한 별도의 백엔드를 갖춘 멀티 실리콘 접근 방식으로 설계되었으며, @register_kernel 플러그인 시스템으로 공통 코드를 변경하지 않고 새로운 아키텍처 지원을 추가할 수 있습니다.