🟡 🤖 모델 게시일: · 1 분 읽기 ·

arXiv:2605.29157: Parallax 로컬 선형 어텐션, FlashAttention 대비 디코드 단계 12.9배 가속

arXiv:2605.29157 ↗

Urednička ilustracija: Parallax lokalna linearna pažnja ubrzava decode fazu 12,9× u odnosu na FlashAttention

Parallax는 대형 언어 모델용 새로운 어텐션 메커니즘으로, 표준 소프트맥스 어텐션을 로컬 선형 추정으로 대체하여 FlashAttention 대비 디코드 커널 12.9배 가속을 달성합니다. Northwestern 대학교 등의 연구자들은 0.6B 및 1.7B 파라미터 모델 사전학습에서 일관된 퍼플렉시티 개선을 보여주며, 어텐션 메커니즘을 위한 아키텍처-옵티마이저 코디자인의 첫 경험적 입증이라고 주장합니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.

Yifei Zuo, Dhruv Pai, Zhichen Zeng, Alec Dewulf, Shuming Hu, Zhaoran Wang 연구자들이 Parallax: Parameterized Local Linear Attention for Language Modeling을 발표했습니다.

Parallax가 어텐션 메커니즘 아키텍처에서 바꾸는 것

표준 소프트맥스 어텐션은 로컬 상수 추정을 사용합니다. Parallax는 KV 공분산을 분석하는 학습 가능한 쿼리 유사 프로젝션으로 로컬 선형 추정으로 업그레이드합니다. 수치 솔버를 제거하고 하드웨어 인식 알고리즘으로 대체합니다.

Parallax는 얼마나 빠른가요?

프로토타입 디코드 커널이 FlashAttention 2/3 대비 12.9배 가속을 달성합니다. 0.6B 및 1.7B 파라미터 사전학습에서 일관된 퍼플렉시티 개선을 보여줍니다.

Muon 옵티마이저 발견

Muon 옵티마이저가 Parallax 아키텍처의 능력을 특별히 발휘시킵니다어텐션 메커니즘을 위한 아키텍처-옵티마이저 코디자인의 첫 경험적 입증입니다.

Parallax가 프로덕션 적용에서 중요한 이유

디코드 단계의 12.9배 가속은 프로덕션 레이턴시에 직접 영향을 미칩니다. 디코드는 일반적으로 가장 느린 단계입니다.

자주 묻는 질문

Parallax 어텐션이 기존 소프트맥스 어텐션과 다른 점은 무엇인가요?
표준 소프트맥스 어텐션은 로컬 상수 추정을 사용하는 반면, Parallax는 학습 가능한 쿼리 유사 프로젝션으로 KV 공분산을 분석하는 로컬 선형 추정으로 업그레이드합니다. 수치 솔버를 제거하고 하드웨어 인식 알고리즘으로 대체합니다.
Muon 옵티마이저와 Parallax의 관계는 무엇인가요?
연구에서 Muon 옵티마이저가 Parallax 아키텍처의 능력을 특별히 발휘시키는 것을 발견했습니다. 이는 어텐션 메커니즘을 위한 아키텍처-옵티마이저 코디자인의 첫 경험적 입증입니다.