🤖 24 AI
🟡 🤖 模型 2026年4月17日星期五 · 2 分钟阅读

ArXiv:LongCoT基准测试揭示GPT 5.2在长链式思维推理上仅得9.8%

为什么重要

LongCoT是一个包含2500个专家设计问题的新基准,覆盖五个领域,测试可能需要数万至数十万token的长链式思维推理能力。当前前沿模型表现大幅不及预期,GPT 5.2仅得9.8%,Gemini 3 Pro仅得6.1%,揭示了自主部署AI代理的关键弱点。

来自牛津大学、劳伦斯利弗莫尔国家实验室和AI安全研究所的国际研究团队发布了LongCoT——一个测试AI模型长链式思维(CoT)推理能力的新基准。结果揭示了即使是最先进模型也存在令人担忧的弱点。

LongCoT测量什么?

基准包含2500个专家设计的问题,涵盖五个领域:化学、数学、计算机科学、国际象棋和逻辑。与现有基准的关键区别在于,问题要求链式思维推理延伸至数万到数十万token——远超常见的短推理任务。

问题设计使得单个步骤对前沿模型是可解的,但整个序列需要扩展推理——维持长步骤序列中连贯思维而不丢失上下文或积累错误的能力。

结果有多令人担忧?

当前前沿模型大幅落败GPT 5.2仅得9.8%Gemini 3 Pro更低至6.1%。这意味着即使是最强大的AI模型,也无法解决超过十分之一需要长时间连贯推理的问题。

这一发现在AI代理自主任务应用日益增长的背景下尤为重要。需要规划和执行多步骤操作的代理——从调试会话到研究流程——恰恰依赖长时间连贯推理的能力。

为何这对AI安全重要?

研究者明确将LongCoT弱点识别为AI代理自主部署的关键威胁。如果模型无法可靠地推理经历长序列步骤,自主代理可能在复杂任务的后期阶段做出错误决策——而那正是后果最严重的地方。

基准还表明,当前的模型扩展方法并不能自动解决长推理问题。需要从根本上创新架构或训练方法,使模型跨越短链式思维与长链式思维推理之间的鸿沟。

🤖

本文由人工智能基于一手来源生成。