什么是LongCoT基准？

一个包含2500个专家设计问题的基准，涵盖化学、数学、计算机科学、国际象棋和逻辑，测试需要数万至数十万token的链式思维推理能力。

为何前沿模型在LongCoT上表现如此糟糕？

单个解题步骤对它们来说是可解的，但在数千步骤序列中保持连贯推理仍是关键弱点——GPT 5.2仅得9.8%。

来自牛津大学、劳伦斯利弗莫尔国家实验室和AI安全研究所的国际研究团队发布了LongCoT——一个测试AI模型长链式思维（CoT）推理能力的新基准。结果揭示了即使是最先进模型也存在令人担忧的弱点。

基准包含2500个专家设计的问题，涵盖五个领域：化学、数学、计算机科学、国际象棋和逻辑。与现有基准的关键区别在于，问题要求链式思维推理延伸至数万到数十万token——远超常见的短推理任务。

问题设计使得单个步骤对前沿模型是可解的，但整个序列需要扩展推理——维持长步骤序列中连贯思维而不丢失上下文或积累错误的能力。

当前前沿模型大幅落败：GPT 5.2仅得9.8%，Gemini 3 Pro更低至6.1%。这意味着即使是最强大的AI模型，也无法解决超过十分之一需要长时间连贯推理的问题。

这一发现在AI代理自主任务应用日益增长的背景下尤为重要。需要规划和执行多步骤操作的代理——从调试会话到研究流程——恰恰依赖长时间连贯推理的能力。

研究者明确将LongCoT弱点识别为AI代理自主部署的关键威胁。如果模型无法可靠地推理经历长序列步骤，自主代理可能在复杂任务的后期阶段做出错误决策——而那正是后果最严重的地方。

基准还表明，当前的模型扩展方法并不能自动解决长推理问题。需要从根本上创新架构或训练方法，使模型跨越短链式思维与长链式思维推理之间的鸿沟。