arXiv:2605.15514: RoPE matematički ne razlikuje pozicije ni tokene u dugim kontekstima — teorijski dokaz fundamentalnog ograničenja
arXiv paper 2605.15514 donosi matematički dokaz da Rotary Positional Embeddings (RoPE), pozicijski mehanizam koji koriste gotovo svi moderni veliki jezični modeli uključujući Llamu, Mistral, Qwen i GPT-NeoX, gubi sposobnost razlikovanja pozicija i tokena u dugačkim kontekstima. Autori zaključuju da su potrebni fundamentalno novi arhitekturni mehanizmi.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Što je RoPE i zašto je važan za sve moderne LLM-ove?
Veliki jezični modeli (LLM-ovi) temelje se na transformer arhitekturi koja ne može inherentno znati gdje se koji token nalazi u nizu. Pozicijsko enkodiranje rješava taj problem: svakom tokenu dodjeljuje informaciju o njegovoj poziciji u kontekstu. Bez toga, model ne bi razlikovao “pas ugrize čovjeka” od “čovjek ugrize psa”.
Rotary Positional Embeddings, poznatiji kao RoPE, danas su dominantni standard za taj zadatak. Uveo ih je rad iz 2021. godine, a od tada su postali sastavni dio gotovo svih relevantnih arhitektura: Meta Llama u svim generacijama, Mistral, Qwen, GPT-NeoX i brojni derivati. RoPE enkodira relativne pozicije između tokena putem rotacija u vektorskom prostoru — elegantno matematičko rješenje koje dobro funkcionira u kratkim i srednje dugim kontekstima.
Što RoPE matematički ne može u dugim kontekstima?
Novi arXiv paper (2605.15514) “RoPE Distinguishes Neither Positions Nor Tokens in Long Contexts, Provably” autora Yufeng Du, Phillip Harris, Minyang Tian, Eliu A. Huerta, Srikanth Ronanki, Subendhu Rongali, Aram Galstyan i Hao Peng donosi formalni teorijski dokaz dvaju temeljnih ograničenja.
Gubitak lokalnog pristranosti pozicija. U normalnom radu, attention mehanizam bi trebao favorizirati bliže tokene — semantički kontekst obično dolazi iz susjednih rečenica, a ne iz udaljenih pasusa. Autori dokazuju da s rastom duljine konteksta RoPE prestaje iskazivati tu pristranost: model postaje jednako vjerojatan da usmjeri pažnju na token na poziciji 1 kao i na token na poziciji 10.000. Stopa pogreške u razlikovanju bliskih od daljih pozicija teži prema 50%.
Gubitak konzistentnosti tokena. Još ozbiljniji problem je da isti token može na različitim pozicijama u kontekstu dobiti dijametralno suprotne attention score vrijednosti. Ključni vektor koji na jednoj poziciji prima visoku pažnju, na drugoj može primiti nisku — bez ikakve semantičke opravdanosti. Štoviše, attention score može ostati nepromijenjen čak i kada se token premjesti ili zamijeni drugim tokenom.
Oba degradacijska efekta u teorijskoj analizi konvergiraju prema stopi pogreške od 50% — što je praktički ekvivalentno nasumičnom pogađanju.
Koje su implikacije za long-context LLM-ove?
Praktične posljedice su značajne. Industrija posljednjih godina intenzivno radi na proširenju kontekstnih prozora LLM-ova — od 4.000 tokena prema 128.000, 1 milijun i više. Modeli se marketinški pozicioniraju upravo po sposobnosti obrade dugačkih dokumenata, baza znanja i složenih upita. Ovaj paper matematički dovodi u pitanje temelje te sposobnosti za sve arhitekture koje koriste RoPE.
Autori su posebno ispitali je li problem rješiv unutar postojećeg RoPE okvira. Podešavanje baznog parametra (RoPE base), tehnika koja se već koristi za proširenje kontekstnog prozora, pokazuje inverznu vezu: povećanje baze poboljšava razlikovanje tokena, ali neizbježno žrtvuje razlikovanje pozicija. Radi se o fundamentalnom trade-offu, ne o tehničkom detalju koji se može zakrpati. Ni dublje mreže ni višeglave attention arhitekture ne mogu premostiti ovo teorijsko ograničenje.
Što slijedi — novi pozicijski mehanizmi?
Autori zaključuju da duboka integracija RoPE-a u sve vodeće arhitekture ne znači da je problem bio poznat ili prihvaćen, već da je tek sada formalno dokazan. Njihova preporuka je jasna: potrebni su fundamentalno novi mehanizmi za enkodiranje pozicija i redoslijeda tokena u transformerskim modelima.
Paper ima 35 stranica i 11 figura te predstavlja jedan od rijetkih radova koji teorijskim alatima — a ne samo empirijskim benchmark testovima — zahvaća temeljnu arhitekturnu slabost cijele generacije LLM-ova. Hoće li to potaknuti istraživačke laboratorije poput Meta AI, Mistral AI ili Alibabe (Qwen) na redizajn pozicijskog enkodiranja u sljedećoj generaciji modela, ostaje otvoreno pitanje.
Česta pitanja
- Što je RoPE?
- Rotary Positional Embeddings (RoPE) je matematički mehanizam koji transformer modelima omogućuje da razlikuju redoslijed tokena u tekstu. Koristi rotacije u vektorskom prostoru kako bi enkodirao relativne pozicije između tokena, a prisutan je u većini modernih velikih jezičnih modela.
- Koje modele ovaj rezultat pogađa?
- Praktički sve vodeće obitelji modela s dugim kontekstom: Meta Llama (sve verzije), Mistral, Qwen, GPT-NeoX i sve arhitekture koje na njima temelje vlastite modele. RoPE je danas de facto standard za pozicijsko enkodiranje u transformerima.
- Može li se problem riješiti podešavanjem RoPE parametara?
- Ne bez kompromisa. Autori dokazuju da promjena baznog parametra RoPE-a stvara inverznu vezu: poboljšanje razlikovanja tokena neizbježno žrtvuje sposobnost razlikovanja pozicija, i obratno. Multi-head ili multi-layer dizajn ne može otkloniti ovo temeljno ograničenje.