🔴 🤖 모델 게시일: · 3 분 읽기 ·

arXiv:2605.15514: RoPE는 긴 컨텍스트에서 위치도 토큰도 구별할 수 없다――근본적 한계의 이론적 증명

arXiv:2605.15514 ↗

Editorial illustration: arXiv 논문 2605.15514가 RoPE 위치 인코딩의 근본적 한계를 이론적으로 증명――긴 컨텍스트에서 위치와 토큰 구별 능력 상실

arXiv 논문 2605.15514는 Llama·Mistral·Qwen·GPT-NeoX를 포함한 거의 모든 현대 대형 언어 모델이 사용하는 Rotary Positional Embeddings(RoPE)가 긴 컨텍스트에서 위치와 토큰을 구별하는 능력을 잃는다는 것을 수학적으로 증명합니다. 저자들은 근본적으로 새로운 아키텍처 메커니즘이 필요하다고 결론짓습니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.

RoPE란 무엇이며 왜 모든 현대 LLM에게 중요합니까?

대형 언어 모델(LLM)은 Transformer 아키텍처에 기반하며, 이 아키텍처는 시퀀스에서 각 토큰이 어디에 위치하는지 본질적으로 알 수 없습니다. 위치 인코딩은 이 문제를 해결합니다. 각 토큰에 컨텍스트 내 위치 정보를 할당합니다. 이것이 없다면 모델은 “개가 사람을 물다”와 “사람이 개를 물다”를 구별할 수 없을 것입니다.

Rotary Positional Embeddings(RoPE)는 오늘날 이 작업의 지배적인 표준입니다. 2021년 논문에서 도입된 이후 거의 모든 관련 아키텍처의 구성 요소가 되었습니다. Meta Llama의 모든 세대, Mistral, Qwen, GPT-NeoX 및 수많은 파생 아키텍처가 포함됩니다. RoPE는 벡터 공간에서의 회전을 통해 토큰 간의 상대적 위치를 인코딩합니다――짧은~중간 길이의 컨텍스트에서 잘 작동하는 우아한 수학적 해결책입니다.

RoPE는 긴 컨텍스트에서 수학적으로 무엇을 할 수 없습니까?

새로운 arXiv 논문(2605.15514) “RoPE Distinguishes Neither Positions Nor Tokens in Long Contexts, Provably”(저자: Yufeng Du, Phillip Harris, Minyang Tian, Eliu A. Huerta, Srikanth Ronanki, Subendhu Rongali, Aram Galstyan, Hao Peng)는 두 가지 근본적 한계의 공식적인 이론적 증명을 제시합니다.

지역 위치 편향의 상실. 정상 작동에서 어텐션 메커니즘은 가까운 토큰을 선호해야 합니다――의미적 컨텍스트는 보통 멀리 떨어진 단락이 아닌 인접한 문장에서 옵니다. 저자들은 컨텍스트 길이가 증가함에 따라 RoPE가 이 편향을 더 이상 보이지 않는다는 것을 증명합니다. 모델이 위치 1의 토큰과 위치 10,000의 토큰에 동일하게 어텐션을 향할 확률이 됩니다. 가까운 위치와 먼 위치를 구별하는 오류율은 50%로 수렴합니다.

토큰 일관성의 상실. 더 심각한 문제는 동일한 토큰이 컨텍스트 내 다른 위치에서 정반대의 어텐션 스코어를 받을 수 있다는 것입니다. 한 위치에서 높은 어텐션을 받는 핵심 벡터가 다른 위치에서는 낮은 어텐션을 받을 수 있습니다――어떠한 의미적 이유도 없이. 더 나아가, 토큰이 이동되거나 다른 토큰으로 교체되더라도 어텐션 스코어가 변하지 않을 수 있습니다.

두 가지 저하 효과는 이론적 분석에서 모두 50%의 오류율로 수렴합니다――이는 실질적으로 무작위 추측과 동일합니다.

긴 컨텍스트 LLM에 대한 시사점

실질적인 결과는 중요합니다. 업계는 최근 몇 년간 LLM의 컨텍스트 윈도우를 적극적으로 확장해왔습니다――4,000 토큰에서 128,000, 100만 토큰 이상으로. 모델들은 긴 문서, 지식 베이스, 복잡한 쿼리를 처리하는 능력으로 마케팅됩니다. 이 논문은 RoPE를 사용하는 모든 아키텍처에 대해 그 능력의 기반을 수학적으로 의문시합니다.

저자들은 특히 기존 RoPE 프레임워크 내에서 문제를 해결할 수 있는지 검토했습니다. 컨텍스트 윈도우 확장에 이미 사용되는 기저 파라미터(RoPE base) 조정은 역방향 관계를 보입니다. 기저를 높이면 토큰 구별이 개선되지만 위치 구별이 불가피하게 희생됩니다. 이것은 근본적인 트레이드오프이며, 패치로 해결할 수 있는 기술적 세부 사항이 아닙니다. 더 깊은 네트워크도, 멀티헤드 어텐션 아키텍처도 이 이론적 한계를 해소할 수 없습니다.

다음 단계――새로운 위치 메커니즘으로?

저자들은 모든 주요 아키텍처에 RoPE가 깊이 통합된 것이 문제가 이전부터 알려져 있거나 수용되었다는 것을 의미하지 않으며, 이제야 비로소 공식적으로 증명되었다는 것을 의미한다고 결론짓습니다. 그들의 권고는 명확합니다. Transformer 모델에서 토큰의 위치와 순서 인코딩을 위한 근본적으로 새로운 메커니즘이 필요합니다.

35페이지 11개 그림으로 구성된 이 논문은 이론적 도구를 사용해――단순한 실증적 벤치마크 테스트가 아닌――LLM 전 세대의 근본적인 아키텍처 약점을 파악한 몇 안 되는 연구 중 하나입니다. 이것이 Meta AI, Mistral AI 또는 알리바바(Qwen)와 같은 연구 기관들이 다음 세대 모델에서 위치 인코딩을 재설계하도록 촉구할지는 열린 질문으로 남아 있습니다.

자주 묻는 질문

RoPE란 무엇입니까?
Rotary Positional Embeddings(RoPE)는 Transformer 모델이 텍스트에서 토큰의 순서를 구별할 수 있도록 하는 수학적 메커니즘입니다. 벡터 공간에서의 회전을 사용해 토큰 간의 상대적 위치를 인코딩하며, 대부분의 현대 대형 언어 모델에 존재합니다.
이 결과는 어떤 모델에 영향을 미칩니까?
실질적으로 모든 주요 긴 컨텍스트 모델 계열이 영향을 받습니다. Meta Llama(전 버전), Mistral, Qwen, GPT-NeoX, 그리고 이들을 기반으로 구축된 모든 파생 아키텍처가 포함됩니다. RoPE는 오늘날 Transformer에서 위치 인코딩의 사실상 표준입니다.
RoPE 파라미터를 조정해 문제를 해결할 수 있습니까?
타협 없이는 해결할 수 없습니다. 저자들은 RoPE의 기저 파라미터를 변경하면 역방향 관계가 생긴다는 것을 증명합니다. 토큰 구별 능력을 향상시키면 위치 구별 능력이 불가피하게 희생되며, 그 반대도 마찬가지입니다. 멀티헤드 또는 멀티레이어 설계로는 이 근본적 한계를 극복할 수 없습니다.