ArXiv:共形预测揭示LLM评审的隐藏不可靠性
为什么重要
「诊断LLM评审可靠性」是一项新研究,表明LLM-as-judge系统的聚合可靠性指标掩盖了严重的逐实例不一致性。尽管传递性违规的总体比率为0.8%至4.1%,但33%至67%的文档至少存在一个传递性循环。该方法依赖具有理论保证覆盖率的共形预测集。
Manan Gupta和Dhruv Kumar于2026年4月16日发表了论文**“诊断LLM评审可靠性:共形预测集与传递性违规”,对LLM-as-a-judge系统可靠性进行了更深层次的分析。虽然大多数研究关注聚合可靠性指标,但本研究首次系统地考察了逐实例可靠性**——针对每个单独文档。
什么是传递性,为何重要?
传递性是排序的基本逻辑属性:如果LLM评审说回答A优于B,B优于C,则必须A优于C。当此条件不成立时,我们就有了有向三元环——A > B、B > C但C > A,这对于一致的评估者来说在形式上是不可能的。
作者测量了真实LLM评审中这些违规发生的频率。结果是矛盾的:聚合违规率看起来很低,在0.8%至4.1%之间。按这一指标,LLM评审看起来很可靠。
但当研究人员查看有多少文档至少存在一次传递性违规时,情况发生了戏剧性变化:33%至67%的文档在其比较中至少存在一个三元环。换句话说,超过三分之一的所有文档在某些部分存在逻辑上不可能的裁决。
共形预测作为诊断工具
该研究引入了一种基于分割共形预测的新方法,用于1到5的Likert评分的分布集合。优势在于这些集合具有理论保证的覆盖率——在置信水平(1-α)下,真实分数以保证的概率落在集合内。
关键发现:预测集宽度与真实逐实例可靠性的相关性在1918个文档的样本中Spearman系数r_s = +0.576,p值小于10^-100。换句话说,如果集合很宽,评审对该特定文档不确定——这可以被正式测量。
评估标准不相等
该研究测量了不同标准的可靠性,发现了明显的层次结构:
- 相关性 — 平均集合大小约3.0(最可靠)
- 连贯性 — 平均集合大小约3.9(中等)
- 流畅性和一致性 — 平均集合大小约4.9(不可靠)
这意味着当LLM评审评估流畅性或一致性时,其裁决远不如评估相关性时可靠。
实践影响
预测集宽度在不同评审中具有一致的相关性(r̄ = 0.32–0.38),这意味着这是关于文档本身的难度,而非特定评审的噪声。作者得出结论,重要的是您评估哪种标准类型,而非您选择哪个具体LLM作为评审。
与同一作者(Manan Gupta)的平行研究情境凌驾内容一起,本论文表明LLM-as-a-judge范式必须重新审视——无论是在偏见层面还是在单个裁决可靠性层面。两项研究目前均在审稿中。
本文由人工智能基于一手来源生成。