arXiv:2605.06635: LLM agenti citiraju ali ne verificiraju — link valid 94%+, točnost 39-77%
Novo istraživanje testiralo je 14 LLM modela u deep research zadacima i otkrilo veliki jaz: linkovi su valjani u 94%+ slučajeva, ali faktografska točnost citata samo 39-77%. Ključni nalaz: točnost citata pada za 42% kad se broj alata povećava sa 2 na 150, što obara pretpostavku da više dohvaćanja znači bolju kvalitetu.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Istraživanje “Cited but Not Verified” (Onweller et al., arXiv:2605.06635) objavljeno 7. svibnja 2026. otkriva ozbiljan jaz između površinske kvalitete citata i stvarne faktografske pouzdanosti LLM deep research agenata. Tim je razvio AST parser koji izvlači inline citate iz Markdown izvještaja i evaluira ih kroz tri dimenzije: dostupnost URL-a, relevantnost sadržaja i faktografska točnost.
Što su brojke?
Frontier modeli održavaju link valjanost iznad 94% i relevantnost iznad 80% — ali faktografska točnost u odnosu na izvorni materijal kreće se tek između 39% i 77%. Drugim riječima, citirani link postoji i tematski je relevantan, no ne potvrđuje uvijek tvrdnju koju agent piše uz njega.
Zašto više pretraga znači manje točnosti?
Najznačajniji nalaz studije je inverzni odnos između dubine istraživanja i pouzdanosti. Kad broj tool callova raste sa 2 na 150, fact check accuracy pada za prosječnih 42%. To obara intuitivnu pretpostavku da temeljitiji deep research donosi bolje rezultate — u praksi, dublje pretrage akumuliraju greške i razvodnjavaju pažnju modela na pojedinačne izvore.
Što to znači za korisnike?
Za novinare, istraživače i poduzeća koji koriste deep research agente, nalaz je upozoravajući: link u izvještaju nije jamstvo da izvor potvrđuje tvrdnju. Manje od polovice open-source modela uopće je uspjelo generirati cited izvještaje u single-shot načinu. Studija sugerira da je ručna verifikacija ključnih citata i dalje nužna, posebno za visoko-rizične zadatke poput pravnih ili medicinskih istraživanja.
Česta pitanja
- Što znači 'fact check accuracy'?
- Fact check accuracy je metrika koja mjeri koliko se sadržaj citata podudara s tvrdnjom koja ga referencira u tekstu — odnosno, je li citirani izvor zaista potvrđuje ono što LLM tvrdi. Razlikuje se od pukog provjeravanja je li link otvoren.
- Zašto točnost pada s dubinom istraživanja?
- Istraživači su pokazali da pri povećanju broja tool callova sa 2 na 150, faktografska točnost pada za prosječno 42%. Mogući uzroci: kumulativna pogreška, slabija pažnja na pojedinačne izvore, i tendencija modela da generira plauzibilne citate bez stvarne provjere.
- Koji modeli su testirani?
- Tim je benchmarkirao 14 modela — kombinaciju closed-source frontier sustava i open-source modela. Manje od polovice open-source modela uspješno je generiralo citirane izvještaje u single-shot načinu rada.
Povezane vijesti
arXiv:2605.21006: Off-the-shelf persona vektori postižu 68-98% učinkovitosti targetiranog sycophancy steeringa u LLM modelima
Black Forest Labs: FLUX Erase nadmašuje GPT Image-2 (68.5%) i Finegrain (63.2%) u uklanjanju objekata bez prompta
arXiv:2605.19762: ICML 2026 paper tvrdi da kod ne poboljšava matematičko zaključivanje LLM-ova