LLM评审中的传递性违规是什么？

传递性意味着如果评审说A > B且B > C，则必须有A > C。违规是指评审同时说A > B、B > C和C > A——逻辑上不可能，却在33%至67%的文档中发生。

哪些评估标准最不可靠？

相关性的平均集合大小最小（约3.0，最可靠）。连贯性居中（约3.9）。流畅性和一致性的集合大小约4.9，对逐实例决策不可靠。

使用LLM评审进行自动NLG评估的从业者假设较低的聚合违规率意味着高可靠性。研究表明这是错误的——逐实例可靠性可能会低得多。

Manan Gupta和Dhruv Kumar于2026年4月16日发表了论文**“诊断LLM评审可靠性：共形预测集与传递性违规”，对LLM-as-a-judge系统可靠性进行了更深层次的分析。虽然大多数研究关注聚合可靠性指标，但本研究首次系统地考察了逐实例可靠性**——针对每个单独文档。

传递性是排序的基本逻辑属性：如果LLM评审说回答A优于B，B优于C，则必须A优于C。当此条件不成立时，我们就有了有向三元环——A > B、B > C但C > A，这对于一致的评估者来说在形式上是不可能的。

作者测量了真实LLM评审中这些违规发生的频率。结果是矛盾的：聚合违规率看起来很低，在0.8%至4.1%之间。按这一指标，LLM评审看起来很可靠。

但当研究人员查看有多少文档至少存在一次传递性违规时，情况发生了戏剧性变化：33%至67%的文档在其比较中至少存在一个三元环。换句话说，超过三分之一的所有文档在某些部分存在逻辑上不可能的裁决。

该研究引入了一种基于分割共形预测的新方法，用于1到5的Likert评分的分布集合。优势在于这些集合具有理论保证的覆盖率——在置信水平（1-α）下，真实分数以保证的概率落在集合内。

关键发现：预测集宽度与真实逐实例可靠性的相关性在1918个文档的样本中Spearman系数r_s = +0.576，p值小于10^-100。换句话说，如果集合很宽，评审对该特定文档不确定——这可以被正式测量。

该研究测量了不同标准的可靠性，发现了明显的层次结构：

这意味着当LLM评审评估流畅性或一致性时，其裁决远不如评估相关性时可靠。

预测集宽度在不同评审中具有一致的相关性（r̄ = 0.32–0.38），这意味着这是关于文档本身的难度，而非特定评审的噪声。作者得出结论，重要的是您评估哪种标准类型，而非您选择哪个具体LLM作为评审。

与同一作者（Manan Gupta）的平行研究情境凌驾内容一起，本论文表明LLM-as-a-judge范式必须重新审视——无论是在偏见层面还是在单个裁决可靠性层面。两项研究目前均在审稿中。