arXiv:2605.06635：14个LLM引文事实准确率仅39-77%

一项新研究对14个LLM模型在深度研究任务中进行了测试，发现了巨大差距：链接有效率超过94%，但引文的事实准确率仅为39-77%。关键发现：当工具调用次数从2次增至150次时，引文准确率下降42%，推翻了「检索越多质量越好」的假设。

「Cited but Not Verified」（Onweller等人，arXiv:2605.06635）于2026年5月7日发布，揭示了LLM深度研究代理在引文表面质量与实际事实可靠性之间的严重差距。团队开发了一个AST解析器，从Markdown报告中提取内联引文，并从三个维度进行评估：URL可访问性、内容相关性和事实准确率。

具体数据是什么？

前沿模型的链接有效率维持在94%以上，相关性超过80%——但相对于原始材料的事实准确率仅在39%至77%之间。换言之，被引用的链接存在且主题相关，但并不总是能证实代理在旁边所写的声明。

为什么搜索越多准确率越低？

该研究最重要的发现是研究深度与可靠性之间的反向关系。当工具调用次数从2次增至150次时，事实核查准确率平均下降42%。这推翻了「深度研究带来更好结果」的直观假设——实际上，更深入的搜索会积累错误，并分散模型对单个来源的注意力。

这对用户意味着什么？

对于使用深度研究代理的记者、研究人员和企业而言，这一发现令人警惕：报告中的链接并不能保证来源支持该声明。不到一半的开源模型甚至能以单次推理模式生成带引文的报告。研究建议，对关键引文进行人工核实仍然必要，尤其是在法律或医学研究等高风险任务中。

常见问题

什么是「事实核查准确率」？

事实核查准确率是衡量引文内容与文中引用该来源的声明相符程度的指标——即被引用的来源是否真正支持LLM所述的内容。这与仅检查链接是否可访问不同。

为什么研究深度越深准确率反而越低？

研究人员发现，当工具调用次数从2次增至150次时，事实核查准确率平均下降42%。可能原因包括：累积误差、对单个来源的注意力减弱，以及模型倾向于生成貌似合理的引用而非真正核实。

测试了哪些模型？

团队对14个模型进行了基准测试，涵盖闭源前沿系统和开源模型。不到一半的开源模型能够以单次推理模式成功生成带引文的报告。

arXiv:2605.06635：LLM代理引用但不验证——链接有效率94%以上，准确率仅39-77%

具体数据是什么？

为什么搜索越多准确率越低？

这对用户意味着什么？

常见问题

来源

相关新闻