arXiv LegalHalluLens: halucinacije pravnog AI-ja

Rad LegalHalluLens uvodi profiliranje halucinacija pravnog AI-ja kroz četiri tipa — numeričke, vremenske, o obvezama i činjenične — na ugovornim podacima CUAD. Ključni nalaz: agregatna stopa od 52% halucinacija krije razliku od 38 do 40 postotnih bodova između najbolje i najgore kategorije unutar istog modela, što se ne vidi u zbirnim metrikama. Pipeline kalibrirane debate s agentskim skepticima smanjuje lažne detekcije za 45% uz manje modele.

Novi preprint LegalHalluLens pokazuje da prosječne stope halucinacija u pravnom AI-ju zavaravaju jer skrivaju velike razlike među vrstama grešaka.

Profiliranje halucinacija po tipu

LegalHalluLens uvodi “typed hallucination profiling” — razvrstavanje halucinacija u četiri kategorije: numeričke, vremenske, o obvezama/pravima i činjenične. Analiza je provedena na CUAD podacima, standardnom skupu pravnih ugovora. Halucinacija je ovdje tvrdnja koju model iznosi kao činjenicu, a koja nije potkrijepljena izvorom.

Prosjek koji krije razlike

Ključni nalaz jest da agregatna stopa od 52% halucinacija krije razliku od 38 do 40 postotnih bodova između najbolje i najgore kategorije unutar istog modela. Drugim riječima, model može biti pouzdan u jednoj vrsti tvrdnji, a vrlo nepouzdan u drugoj — što se u zbirnoj metrici ne vidi. Rad uvodi i Risk Direction Index (RDI), skalar koji razlikuje pristranost izostavljanja od pristranosti izmišljanja, za “nabavu svjesnu smjera” rizika.

Kako smanjiti lažne detekcije?

Predloženi pipeline kalibrirane debate koristi agentske skeptike koji osporavaju tvrdnje i tako smanjuje lažne detekcije za 45%, pritom postižući komercijalnu razinu s bitno manjim modelima. Rad, predstavljen na radionici AIWILD u sklopu ICML 2026, praktičan je za pravne timove jer pokazuje da uprosječene metrike pouzdanosti nisu dovoljne za procjenu rizika.

Česta pitanja

Što LegalHalluLens mjeri?

Halucinacije pravnog AI-ja kroz četiri tipa (numeričke, vremenske, o obvezama, činjenične) na ugovornim podacima CUAD.

Zašto je agregatna metrika varljiva?

Prosjek od 52% krije razliku od 38–40 postotnih bodova između najbolje i najgore kategorije unutar istog modela.

arXiv:2606.18021: LegalHalluLens otkriva da 52% prosjek halucinacija u pravnom AI-ju krije 38 bodova razlike

Profiliranje halucinacija po tipu

Prosjek koji krije razlike

Kako smanjiti lažne detekcije?

Česta pitanja

Izvori

Povezane vijesti