🤖 24 AI
🟡 🤖 模型 2026年4月17日星期五 · 2 分钟阅读

ArXiv:共形预测揭示LLM评审的隐藏不可靠性

为什么重要

「诊断LLM评审可靠性」是一项新研究,表明LLM-as-judge系统的聚合可靠性指标掩盖了严重的逐实例不一致性。尽管传递性违规的总体比率为0.8%至4.1%,但33%至67%的文档至少存在一个传递性循环。该方法依赖具有理论保证覆盖率的共形预测集。

Manan Gupta和Dhruv Kumar于2026年4月16日发表了论文**“诊断LLM评审可靠性:共形预测集与传递性违规”,对LLM-as-a-judge系统可靠性进行了更深层次的分析。虽然大多数研究关注聚合可靠性指标,但本研究首次系统地考察了逐实例可靠性**——针对每个单独文档。

什么是传递性,为何重要?

传递性是排序的基本逻辑属性:如果LLM评审说回答A优于B,B优于C,则必须A优于C。当此条件不成立时,我们就有了有向三元环——A > B、B > C但C > A,这对于一致的评估者来说在形式上是不可能的。

作者测量了真实LLM评审中这些违规发生的频率。结果是矛盾的:聚合违规率看起来很低,在0.8%至4.1%之间。按这一指标,LLM评审看起来很可靠。

但当研究人员查看有多少文档至少存在一次传递性违规时,情况发生了戏剧性变化:33%至67%的文档在其比较中至少存在一个三元环。换句话说,超过三分之一的所有文档在某些部分存在逻辑上不可能的裁决。

共形预测作为诊断工具

该研究引入了一种基于分割共形预测的新方法,用于1到5的Likert评分的分布集合。优势在于这些集合具有理论保证的覆盖率——在置信水平(1-α)下,真实分数以保证的概率落在集合内。

关键发现:预测集宽度与真实逐实例可靠性的相关性在1918个文档的样本中Spearman系数r_s = +0.576,p值小于10^-100。换句话说,如果集合很宽,评审对该特定文档不确定——这可以被正式测量。

评估标准不相等

该研究测量了不同标准的可靠性,发现了明显的层次结构:

  1. 相关性 — 平均集合大小约3.0(最可靠)
  2. 连贯性 — 平均集合大小约3.9(中等)
  3. 流畅性一致性 — 平均集合大小约4.9(不可靠)

这意味着当LLM评审评估流畅性或一致性时,其裁决远不如评估相关性时可靠。

实践影响

预测集宽度在不同评审中具有一致的相关性(r̄ = 0.32–0.38),这意味着这是关于文档本身的难度,而非特定评审的噪声。作者得出结论,重要的是您评估哪种标准类型,而非您选择哪个具体LLM作为评审。

与同一作者(Manan Gupta)的平行研究情境凌驾内容一起,本论文表明LLM-as-a-judge范式必须重新审视——无论是在偏见层面还是在单个裁决可靠性层面。两项研究目前均在审稿中。

🤖

本文由人工智能基于一手来源生成。