arXiv:2605.27567：LLM无法学习因果关系——A-CBO方案详解

Amartya Roy与Sonali Parbhoo的研究证明了核障碍定理（Kernel Obstruction Theorem）：微调、DPO和in-context learning等方法所生成的预测器无法区分产生相似观测数据的因果图。这一局限固有于学习范式本身，而非特定模型。所提出的A-CBO（Agentic Causal Bayesian Optimization）方案通过将冻结的LLM用作干预预言机来绕过这一问题。

研究人员Amartya Roy与Sonali Parbhoo发布了一篇预印本，从数学上证明了标准机器学习方法在因果关系发现领域的根本局限——并提出了一种能够绕过这一固有障碍的智能体方案。

为何微调和in-context learning都无法学习因果关系？

因果发现（causal discovery）是从数据中识别因果关系的任务。虽然LLM在相关性任务中表现出令人印象深刻的能力，但随着图复杂度增加，其在因果任务上的表现会下降——而这一局限此前缺乏正式的理论解释。

研究人员现在通过核障碍定理（Kernel Obstruction Theorem）从数学上证明了这一点：监督微调（SFT）、直接偏好优化（DPO）和in-context learning（ICL）等方法所生成的预测器无法区分产生相似观测数据的因果图。关键结论是：这一局限固有于学习范式本身，而非任何特定模型或数据集。

什么是A-CBO，它如何解决核问题？

**A-CBO（Agentic Causal Bayesian Optimization）**是所提出的智能体方案，通过重构问题来绕过核障碍。其架构依赖三个组件：

冻结的LLM被用作干预预言机，回答关于干预的针对性问题——「如果我们改变变量X会发生什么？」LLM不针对因果推理进行训练；相反，LLM提供对干预结果的上下文性估计。

外部贝叶斯优化循环接收这些估计，并系统性地将信念集中于候选因果图上，排除不满足观测干预结果的候选图。

这一设计通过将因果图决策的制定移出LLM表征空间的问题区域，转移到确定性的贝叶斯框架中，从而绕过了核障碍——该框架可在对数步数内收敛。

A-CBO的实验结果如何？

研究人员在两个因果推理基准上对A-CBO进行了测试。在原始Corr2Cause基准上，A-CBO无需任何训练，即取得与微调基线模型相当的结果。

在包含24变量图和18000个测试样本的扩展Corr2Cause基准上，A-CBO同时超越了微调和偏好优化方法。随着图复杂度增加，性能持续提升——这与标准LLM方法的下降曲线恰恰相反。

这一发现对构建需要理解原因的AI智能体具有直接影响——从医学诊断到机器人学和科学发现——在这些领域，仅凭相关性推断不足以支撑可靠决策。

常见问题

什么是核障碍定理，为何LLM无法学习因果关系？

核障碍定理证明，监督微调（SFT）、直接偏好优化（DPO）和in-context learning（ICL）所产生的预测器无法区分生成相似观测数据的因果图。这一局限不在于具体模型或数据集，而是固有于学习范式本身。

什么是A-CBO，它如何绕过LLM因果推理的固有局限？

A-CBO（Agentic Causal Bayesian Optimization）将冻结的LLM用作干预预言机，回答关于干预的针对性问题；外部贝叶斯优化循环将信念集中于候选因果图上。该过程在对数步数内收敛。

A-CBO在Corr2Cause因果推理基准上表现如何？

在原始Corr2Cause基准上，A-CBO无需任何训练即与微调基线持平。在包含24变量图和18000个测试样本的扩展Corr2Cause基准上，A-CBO超越了微调和偏好优化方法。

arXiv:2605.27567: 数学证明揭示LLM无法学习因果关系的根本原因，以及A-CBO智能体方案如何绕过这一固有局限

为何微调和in-context learning都无法学习因果关系？

什么是A-CBO，它如何解决核问题？

A-CBO的实验结果如何？

常见问题

来源

相关新闻