ReContext poboljšava iskorištenost 128K kontekstnih prozora bez ponovnog treniranja
Istraživači sa Sveučilišta Illinois razvili su ReContext — inferencijsku tehniku koja rekurzivno reproducira relevantne dokaze iz dugog kontekstnog prozora i konzistentno poboljšava učinak na tri LLM arhitekture kroz osam benchmarkova, bez ponovnog treniranja.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Moderni jezični modeli podržavaju kontekstne prozore od 128.000 tokena — dovoljno za cijele knjige, opsežne baze koda ili višetjedno e-mail dopisivanje. No bez obzira na tehničke kapacitete, istraživači sa Sveučilišta Illinois dokumentirali su fundamentalan problem: sami modeli ne znaju učinkovito iskoristiti informacije koje su im dostupne unutar tih prozora.
Studija „ReContext: Recursive Evidence Replay as LLM Harness for Long-Context Reasoning” autora Yanjuna Zhaoa, Ruizhonga Qiua, Tianxina Weija, Yuanchena Beija, Zhining Liua, Lingjie Chena, Ismini Lourentzou, Hanghanga Tonga i Jingruia Hea nudi inferencijsko rješenje — bez ijedne izmjene parametara modela.
Zašto LLM-ovi zanemaruju dokaze koji su im na dohvat ruke?
Ovaj problem je dobro poznat u istraživanju dugog konteksta: kada relevantni dokazi nisu smješteni na samom početku ili kraju kontekstnog prozora, LLM-ovi tendiraju pridavati im manje pažnje ili ih u potpunosti previdjeti. Fenomen koji literatura naziva „izgubljen u sredini” ostaje prisutan čak i u modelima koji formalno podržavaju 128K tokena.
Dosadašnja rješenja uglavnom su zaobilazila problem: retrieval-augmented generation (RAG) unosi samo odabrane ulomke u kontekst, čime gubi informacije koje retrieval sustav nije dohvatio. Kompresija i skraćivanje konteksta reduciraju ulaz, ali uz rizik od eliminiranja relevantnih detalja. ReContext ne koristi ni jedan od tih pristupa.
Kako funkcionira rekurzivna reprodukcija dokaza
ReContext operira isključivo unutar faze inferencije. Tehnika koristi signale relevantnosti koje model sam generira — konkretno, distribucije pažnje i vjerojatnosne signale — kako bi identificirala koji dijelovi dugog konteksta su najrelevantniji za zadani upit.
Na temelju tih signala gradi se skup dokaza kondicioniran upitom. Ti dokazi zatim se rekurzivno reproduciraju neposredno pred završno generiranje odgovora. Rezultat je da model u trenutku generiranja ima najrelevantnije informacije istaknute u prednjem planu pažnje, dok puni originalni kontekst ostaje netaknut i dostupan.
Nema vanjskih baza podataka, nema retrieval sustava, nema skraćivanja. Teorijsko utemeljenje crpi iz asocijativne memorije — grane kognitivnih znanosti koja opisuje kako se sjećanja dohvaćaju na temelju djelomičnih tragova. Kontekstni prozor modela tretira se kao prostor pohrane, a mehanizmi pažnje kao asocijativni procesori koji povezuju upite s pohranjenim uzorcima.
Konzistentni dobici na tri modela i osam benchmarkova
Istraživački tim evaluirao je ReContext na Qwen3-4B, Qwen3-8B i Llama3-8B — tri arhitekture različitih veličina i porijekla — kroz osam benchmarkova namijenjenih evaluaciji dugog konteksta pri 128K tokena.
Rezultati pokazuju konzistentno poboljšanje iskorištenosti dokaza na svim trima modelima. Posebno je važno za praksu to što ReContext ne koristi prednosti specifičnih karakteristika jedne arhitekture: postiže dobitke neovisno o tome radi li se o kompaktnijem 4B modelu ili 8B modelu. Ovo sugerira da je problem nedovoljne iskorištenosti kontekstnog prozora sistemski — i da ga je moguće adresirati na razini inferencijskog algoritma, bez intervencije u parametre modela.
ReContext ima najmanji prosječni rang performanse na svim trima modelima i svim benchmarkovima, što ga autori navode kao primarni agregirni pokazatelj. Implementacija je javno dostupna na GitHubu.
Praktična primjenjivost bez troška ponovnog treniranja
Za inženjere koji grade sustave s dugim kontekstima — od summarizacije dokumenata i pravne analize do multi-hop question answering i code review agenata — ReContext nudi rijedak omjer: znatan dobitak uz nulti trošak ponovnog treniranja.
Tehnika se može primijeniti kao inferencijski sloj iznad kompatibilnog LLM-a bez izmjena u infrastrukturi, bez fine-tuninga i bez potrebe za vanjskim vektorskim bazama. U okruženjima gdje su troškovi ponovnog treniranja prohibitivni ili gdje nije prihvatljivo mijenjati temeljne parametre modela, to je konkretna prednost.
Širi kontekst koji ovo otvara jest pitanje koliko je sposobnosti trenutnih LLM-ova skriveno iza problema iskorištenosti kontekstnog prozora. Ako isti model postiže bolje rezultate samo uz pametniji raspored dokaza pri inferenciji, onda potencijal koji se dosad pripisivao isključivo skaliranju parametara leži i u skaliranju inferencijskih strategija — bez ijednog dodatnog parametra treniranja.
Česta pitanja
- Čime se ReContext razlikuje od retrieval-augmented generation pristupa?
- ReContext ne koristi vanjsku pohranu niti retrieval sustav — koristi signale relevantnosti samog modela za rekurzivnu reorganizaciju dokaza unutar postojećeg kontekstnog prozora, uz očuvanje punog izvornog konteksta bez ikakva skraćivanja.
- Na kojim modelima i benchmarkovima je ReContext testiran?
- Tehnika je evaluirana na Qwen3-4B, Qwen3-8B i Llama3-8B kroz osam benchmarkova za dugi kontekst od 128K tokena, s konzistentnim poboljšanjima na svim trima arhitekturama.
- Je li ReContext primjenjiv bez izmjene parametara modela?
- Da — ReContext je u potpunosti training-free tehnika inferencije. Primjenjuje se kao sloj iznad postojećeg modela bez ikakvih promjena parametara, fine-tuninga ili prilagodbe arhitekture.