arXiv:2606.03883:大型语言模型的推理结构究竟是什么样的?
苏黎世联邦理工学院的研究人员推出了一个逻辑谜题基准和一条流水线,可将推理轨迹转化为可度量的论断与依赖关系图。新的度量量化了推理效率,并揭示出准确率和 token 数所无法区分的差异。
本文由人工智能基于一手来源生成。
如今的推理模型主要由两个数字来评判:它们是否给出了正确答案,以及消耗了多少 token。苏黎世联邦理工学院 的团队——Frédéric Berdoz、Luca A. Lanzendörfer、Fabian Farestam 和 Roger Wattenhofer——认为这两个数字掩盖了许多东西,并提供了一种能窥探推理本身结构的工具。
推理结构如何度量?
作者构建了一个可扩展的 逻辑谜题基准 和一条流水线,能将非结构化的 推理轨迹——模型思考步骤的序列——转化为一个可验证的图。在这个图中,节点是单个 论断,边是它们之间的 逻辑依赖关系。如此一来,模型是构建出一个整洁、连贯的论证,还是在不通向解答的歧路上徘徊,便变得一目了然。
新度量揭示了什么?
除了图之外,作者还引入了一种量化 推理效率 的度量——即模型逻辑流程的集中程度。他们在开源系统上的分析的主要发现是:结构度量能区分准确率和 token 数混为一谈的行为。两个模型可以有相同的准确率和相近的回答长度,却拥有截然不同的思考结构。
这为什么重要?
其实用价值在于诊断。结构视角使人能够识别模型出错的方式,并比较推理如何随谜题难度的变化而变化。该论文被 ICML 2026 接收,并在 ICLR 2026 关于大型模型推理的研讨会上发表,这表明学界对度量模型 如何 思考、而不仅仅是它 答出 什么,正抱有日益浓厚的兴趣。
常见问题
- 本文中的推理图是什么?
- 一种图,其节点是模型的论断,边是它们之间的逻辑依赖关系,由将非结构化的推理轨迹转化而来。
- 为什么准确率和 token 数不够?
- 结构度量能区分准确率和 token 数所混为一谈的行为,揭示出模型如何构建论证,而不仅仅是它是否得出了解答。