ArXiv: conformal prediction otkriva skrivene nepouzdanosti LLM sudaca

Diagnosing LLM Judge Reliability je nova studija koja pokazuje da agregatne metrike pouzdanosti LLM-as-judge sustava zamagljuju ozbiljne per-instance inkonzistencije. Iako su ukupne stope kršenja tranzitivnosti 0,8 do 4,1 posto, čak 33 do 67 posto dokumenata ima najmanje jedan tranzitivni ciklus. Metoda se oslanja na conformal prediction sets s teorijski zajamčenim pokrivanjem.

Manan Gupta i Dhruv Kumar objavili su 16. travnja 2026. paper “Diagnosing LLM Judge Reliability: Conformal Prediction Sets and Transitivity Violations” koji ide u drugu razinu dubinske analize pouzdanosti LLM-as-a-judge sustava. Dok se većina istraživanja bavila agregatnim metrikama pouzdanosti, ova studija prva je sistemski pogledala per-instance reliability — za svaki pojedini dokument posebno.

Što je tranzitivnost i zašto je bitna?

Tranzitivnost je temeljno logičko svojstvo uređenja: ako LLM sudac kaže da je odgovor A bolji od B, i da je B bolji od C, onda mora vrijediti da je A bolji od C. Kada to ne vrijedi, govorimo o directed 3-cycle — ciklu u kojem A > B, B > C, ali C > A, što je formalno nemoguće za konzistentnog evaluatora.

Autori su izmjerili koliko često se ta kršenja događaju u stvarnim LLM sucima. Rezultati su dvosmisleni: agregatne stope kršenja izgledaju niske, između 0,8 i 4,1 posto. Po tom mjerilu LLM suci djeluju pouzdano.

Ali kada su istraživači pogledali koliko dokumenata ima barem jedno kršenje tranzitivnosti, slika se dramatično mijenja: između 33 i 67 posto dokumenata ima najmanje jedan 3-cycle u svojim usporedbama. Drugim riječima, više od trećine svih dokumenata ima logički nemoguće presude u nekom dijelu.

Conformal prediction kao dijagnostički alat

Studija uvodi novu metodologiju zasnovanu na split conformal prediction distribucijskim skupovima za Likert ocjene od 1 do 5. Prednost je da te skupove imaju teorijski zajamčeno pokrivanje — uz razinu povjerenja (1-α), stvarna ocjena pada unutar skupa s garantiranom vjerojatnošću.

Ključni nalaz: širina prediction seta korelira sa stvarnom per-instance pouzdanošću s Spearman koeficijentom r_s = +0,576 na uzorku od 1.918 dokumenata, s p-vrijednošću manjom od 10^-100. Drugim riječima, ako je set širok, sudac je nesiguran za taj specifičan dokument — i to se može formalno izmjeriti.

Kriteriji evaluacije nisu jednaki

Studija je izmjerila pouzdanost kroz različite kriterije i otkrila jasnu hijerarhiju:

Relevance — prosječna veličina seta ~3,0 (najpouzdaniji)
Coherence — prosječna veličina seta ~3,9 (umjerena)
Fluency i Consistency — prosječna veličina seta ~4,9 (nepouzdani)

To znači da kada LLM sudac ocjenjuje fluentnost ili konzistentnost odgovora, njegove presude su znatno manje pouzdane nego kada ocjenjuje relevantnost.

Implikacije za praksu

Širina prediction seta ima konzistentnu korelaciju kroz različite suce (r̄ = 0,32–0,38), što znači da se radi o težini samog dokumenta, a ne o šumu specifičnom za jednog suca. Autori zaključuju da je važnije koji tip kriterija procjenjujete nego koji konkretan LLM odabirete za suca.

Zajedno s paralelnom studijom Context Over Content od istog autora (Manan Gupta), ovaj paper signalizira da se LLM-as-a-judge paradigma mora preispitati — kako na razini pristranosti tako i na razini pouzdanosti pojedinačnih presuda. Obje studije su trenutno pod recenzijom.

Česta pitanja

Što su kršenja tranzitivnosti kod LLM sudaca?

Tranzitivnost znači da ako sudac kaže A > B i B > C, onda mora vrijediti A > C. Kršenje je kada sudac kaže i A > B, B > C i C > A — logički nemoguće, a opet se događa u 33 do 67 posto dokumenata.

Koji kriteriji evaluacije su najmanje pouzdani?

Relevance ima najmanji prosječni set size (~3.0, najpouzdaniji). Coherence je umjeren (~3.9). Fluency i Consistency imaju set size ~4.9 i nepouzdani su za per-instance odluke.

Zašto je ovaj nalaz važan za industrijsku evaluaciju?

Praktičari koji koriste LLM suce za automatsku NLG evaluaciju pretpostavljaju da niske agregatne stope kršenja znače visoku pouzdanost. Studija pokazuje da je to pogrešno — per-instance reliability može biti dramatično niža.