arXiv: GraphRAG mora dokumentirati uncited entitete

Why Neighborhoods Matter je novi arXiv paper objavljen 14. svibnja 2026. autora Riccardo Terrenzi, Maximilian von Zastrow i Serkan Ayvaz (prihvaćen za IJCAI-ECAI 2026 Joint Workshop on GENAIK and NORA). Autori argumentiraju da agentic GraphRAG sustavi moraju tretirati citation faithfulness kao trajectory-level problem — pravi provenance pokriva ne samo cited evidence, već i visited-but-uncited entitete koji utječu na model reasoning.

Riccardo Terrenzi, Maximilian von Zastrow i Serkan Ayvaz objavili su 14. svibnja 2026. na arXivu paper koji izazov tradicionalnom shvaćanju citation faithfulness u GraphRAG sustavima. Paper je prihvaćen za IJCAI-ECAI 2026 Joint Workshop on GENAIK and NORA (7 stranica, 2 figure).

Što paper konkretno tvrdi?

Autori predlažu radikalan reframe: “citation faithfulness as a trajectory-level problem”. Trenutni GraphRAG sustavi tretiraju citations kao “source support” — pokazuju koje entitete u knowledge graphu citiraju za support tvrdnji u odgovoru. Paper tvrdi da je to nedovoljno za pravi provenance jer:

Tijekom graph traversala, agent posjećuje mnoge entitete koje na kraju ne citira
Ti uncited entiteti i dalje utječu na model reasoning kroz context window
Bez dokumentiranja trajectory, korisnik vidi samo finalne citations i ne može rekonstruirati kako je odgovor zaista nastao

Tvrdnja je provokativna jer izazov fundamental design pretpostavku većine RAG sustava: da je transparency = pokazati koje sources je sustav koristio.

Što ablation experimenti pokazuju?

Tim provodi controlled ablation experiments koji izoliraju tri varijante:

Removing cited evidence — što ako uklonimo entitete koje sustav citira?
Removing uncited but visited evidence — što ako uklonimo entitete koje je sustav posjetio ali nije citirao?
Masking entities — što ako entitete zamijenimo placeholder maskama?

Ključni nalaz: cited evidence is often necessary (uklanjanje “substantially changes answers and reduces accuracy”). Ali također: accurate answers can also depend on uncited traversal context. To znači da postoji ekvivalent “hidden state” u traversal trajectory koji utječe na outcome, ali se ne pojavljuje u finalnoj citation lista.

Što “provenance over broader retrieval trajectory” znači?

Paper poziv: “beyond source support toward provenance over the broader retrieval trajectory”. Praktične implikacije za GraphRAG sustave:

Traversal logs kao prvoklasni objekti — ne samo final citations, već sequence svih posjećenih entiteta s timestamps
Visited-but-uncited marker — eksplicitno označavanje entiteta koje je agent posjetio ali odbacio kao “ne worth citing”
Influence weights — kvantifikacija koliko je svaki visited entity utjecao na finalni odgovor

Pristup je kompleksniji ali potreban za high-stakes domene — pravo, medicina, financije — gdje “kako sam došao do odgovora” mora biti rekonstruktirajuće.

Položaj u GraphRAG / agentic safety diskursu

Paper se uklapa u trend agentic safety istraživanja kroz svibanj 2026.: arXiv FATE (12.5., attack reduction), History Anchors (13.5., 91-98 % unsafe shift), Sycophantic Consensus (15.5.), Microsoft AI Delegation (15.5., 19-34 % degradation), GraphFlow (15.5., formal verification). Traversal Context paper dodaje provenance dimension — ne samo “treba li agent X napraviti”, već “možemo li retroaktivno rekonstruirati kako je agent došao do X”.

Workshop venue (GENAIK + NORA) signalizira da se knowledge graph + AI zajednica ozbiljno bavi pitanjima koja mainstream LLM zajednica često zanemaruje. Open-ended chain-of-thought reasoning je opaqan; graph traversal je inherentno tracable — što daje GraphRAG sustavima jedinstveni opportunity za provenance guarantee koji pure LLM RAG ne može pružiti.

Česta pitanja

Što paper konkretno tvrdi o citation faithfulness?

Autori tvrde da citation faithfulness treba tretirati kao trajectory-level problem, a ne kao source-support problem; konkretno, agentic GraphRAG sustavi tijekom traversala posjete entitete koje na kraju ne citiraju, ali ti uncited entiteti utječu na model reasoning — bez dokumentiranja te kontekstualne traversal trajectory, korisnik ne može provjeriti kako je odgovor zaista nastao.

Koju metodologiju koriste za demonstraciju?

Tim provodi kontrolirane ablation experimente: izoliraju, uklanjaju i maskiraju cited i uncited graph entitete; rezultati pokazuju da uklanjanje cited evidence značajno mijenja odgovore i smanjuje accuracy, ali također da accurate answers ponekad ovise o uncited traversal kontekstu — što je empirijski dokaz da samo source citations nisu dovoljne.

arXiv:2605.15109 Traversal Context: agentic GraphRAG mora dokumentirati visited-but-uncited entitete za pravu provenance

Što paper konkretno tvrdi?

Što ablation experimenti pokazuju?

Što “provenance over broader retrieval trajectory” znači?

Položaj u GraphRAG / agentic safety diskursu

Česta pitanja

Izvori

Povezane vijesti