ArXiv: conformal prediction otkriva skrivene nepouzdanosti LLM sudaca
Zašto je bitno
Diagnosing LLM Judge Reliability je nova studija koja pokazuje da agregatne metrike pouzdanosti LLM-as-judge sustava zamagljuju ozbiljne per-instance inkonzistencije. Iako su ukupne stope kršenja tranzitivnosti 0,8 do 4,1 posto, čak 33 do 67 posto dokumenata ima najmanje jedan tranzitivni ciklus. Metoda se oslanja na conformal prediction sets s teorijski zajamčenim pokrivanjem.
Manan Gupta i Dhruv Kumar objavili su 16. travnja 2026. paper “Diagnosing LLM Judge Reliability: Conformal Prediction Sets and Transitivity Violations” koji ide u drugu razinu dubinske analize pouzdanosti LLM-as-a-judge sustava. Dok se većina istraživanja bavila agregatnim metrikama pouzdanosti, ova studija prva je sistemski pogledala per-instance reliability — za svaki pojedini dokument posebno.
Što je tranzitivnost i zašto je bitna?
Tranzitivnost je temeljno logičko svojstvo uređenja: ako LLM sudac kaže da je odgovor A bolji od B, i da je B bolji od C, onda mora vrijediti da je A bolji od C. Kada to ne vrijedi, govorimo o directed 3-cycle — ciklu u kojem A > B, B > C, ali C > A, što je formalno nemoguće za konzistentnog evaluatora.
Autori su izmjerili koliko često se ta kršenja događaju u stvarnim LLM sucima. Rezultati su dvosmisleni: agregatne stope kršenja izgledaju niske, između 0,8 i 4,1 posto. Po tom mjerilu LLM suci djeluju pouzdano.
Ali kada su istraživači pogledali koliko dokumenata ima barem jedno kršenje tranzitivnosti, slika se dramatično mijenja: između 33 i 67 posto dokumenata ima najmanje jedan 3-cycle u svojim usporedbama. Drugim riječima, više od trećine svih dokumenata ima logički nemoguće presude u nekom dijelu.
Conformal prediction kao dijagnostički alat
Studija uvodi novu metodologiju zasnovanu na split conformal prediction distribucijskim skupovima za Likert ocjene od 1 do 5. Prednost je da te skupove imaju teorijski zajamčeno pokrivanje — uz razinu povjerenja (1-α), stvarna ocjena pada unutar skupa s garantiranom vjerojatnošću.
Ključni nalaz: širina prediction seta korelira sa stvarnom per-instance pouzdanošću s Spearman koeficijentom r_s = +0,576 na uzorku od 1.918 dokumenata, s p-vrijednošću manjom od 10^-100. Drugim riječima, ako je set širok, sudac je nesiguran za taj specifičan dokument — i to se može formalno izmjeriti.
Kriteriji evaluacije nisu jednaki
Studija je izmjerila pouzdanost kroz različite kriterije i otkrila jasnu hijerarhiju:
- Relevance — prosječna veličina seta ~3,0 (najpouzdaniji)
- Coherence — prosječna veličina seta ~3,9 (umjerena)
- Fluency i Consistency — prosječna veličina seta ~4,9 (nepouzdani)
To znači da kada LLM sudac ocjenjuje fluentnost ili konzistentnost odgovora, njegove presude su znatno manje pouzdane nego kada ocjenjuje relevantnost.
Implikacije za praksu
Širina prediction seta ima konzistentnu korelaciju kroz različite suce (r̄ = 0,32–0,38), što znači da se radi o težini samog dokumenta, a ne o šumu specifičnom za jednog suca. Autori zaključuju da je važnije koji tip kriterija procjenjujete nego koji konkretan LLM odabirete za suca.
Zajedno s paralelnom studijom Context Over Content od istog autora (Manan Gupta), ovaj paper signalizira da se LLM-as-a-judge paradigma mora preispitati — kako na razini pristranosti tako i na razini pouzdanosti pojedinačnih presuda. Obje studije su trenutno pod recenzijom.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Izvori
Povezane vijesti
Thinking with Reasoning Skills (ACL 2026 Industry Track): manje tokena, veća točnost kroz dohvat skilsova zaključivanja
DeepSeek objavio V4-Pro i V4-Flash: dva open-source modela s milijun tokena konteksta i 80,6 na SWE Verified
OpenAI predstavio GPT-5.5: najpametniji model za kodiranje, istraživanje i složenu analizu podataka kroz alate