arXiv:2605.06635: LLM citati nisu verificirani

Novo istraživanje testiralo je 14 LLM modela u deep research zadacima i otkrilo veliki jaz: linkovi su valjani u 94%+ slučajeva, ali faktografska točnost citata samo 39-77%. Ključni nalaz: točnost citata pada za 42% kad se broj alata povećava sa 2 na 150, što obara pretpostavku da više dohvaćanja znači bolju kvalitetu.

Istraživanje “Cited but Not Verified” (Onweller et al., arXiv:2605.06635) objavljeno 7. svibnja 2026. otkriva ozbiljan jaz između površinske kvalitete citata i stvarne faktografske pouzdanosti LLM deep research agenata. Tim je razvio AST parser koji izvlači inline citate iz Markdown izvještaja i evaluira ih kroz tri dimenzije: dostupnost URL-a, relevantnost sadržaja i faktografska točnost.

Što su brojke?

Frontier modeli održavaju link valjanost iznad 94% i relevantnost iznad 80% — ali faktografska točnost u odnosu na izvorni materijal kreće se tek između 39% i 77%. Drugim riječima, citirani link postoji i tematski je relevantan, no ne potvrđuje uvijek tvrdnju koju agent piše uz njega.

Zašto više pretraga znači manje točnosti?

Najznačajniji nalaz studije je inverzni odnos između dubine istraživanja i pouzdanosti. Kad broj tool callova raste sa 2 na 150, fact check accuracy pada za prosječnih 42%. To obara intuitivnu pretpostavku da temeljitiji deep research donosi bolje rezultate — u praksi, dublje pretrage akumuliraju greške i razvodnjavaju pažnju modela na pojedinačne izvore.

Što to znači za korisnike?

Za novinare, istraživače i poduzeća koji koriste deep research agente, nalaz je upozoravajući: link u izvještaju nije jamstvo da izvor potvrđuje tvrdnju. Manje od polovice open-source modela uopće je uspjelo generirati cited izvještaje u single-shot načinu. Studija sugerira da je ručna verifikacija ključnih citata i dalje nužna, posebno za visoko-rizične zadatke poput pravnih ili medicinskih istraživanja.

Česta pitanja

Što znači 'fact check accuracy'?

Fact check accuracy je metrika koja mjeri koliko se sadržaj citata podudara s tvrdnjom koja ga referencira u tekstu — odnosno, je li citirani izvor zaista potvrđuje ono što LLM tvrdi. Razlikuje se od pukog provjeravanja je li link otvoren.

Zašto točnost pada s dubinom istraživanja?

Istraživači su pokazali da pri povećanju broja tool callova sa 2 na 150, faktografska točnost pada za prosječno 42%. Mogući uzroci: kumulativna pogreška, slabija pažnja na pojedinačne izvore, i tendencija modela da generira plauzibilne citate bez stvarne provjere.

Koji modeli su testirani?

Tim je benchmarkirao 14 modela — kombinaciju closed-source frontier sustava i open-source modela. Manje od polovice open-source modela uspješno je generiralo citirane izvještaje u single-shot načinu rada.

arXiv:2605.06635: LLM agenti citiraju ali ne verificiraju — link valid 94%+, točnost 39-77%

Što su brojke?

Zašto više pretraga znači manje točnosti?

Što to znači za korisnike?

Česta pitanja

Izvori

Povezane vijesti