🟡 🤖 模型 2026年5月1日星期五 · 2 分钟阅读 ·

2026年春季AstaBench:Claude Opus 4.7以58%领跑科学AI基准测试,GPT-5.5成本低一半

编辑插图:显示AI模型科学任务性能图表的排行榜表格,中性实验室美学

Allen研究所发布了更新的AstaBench排行榜,包含2400个面向科学AI智能体的问题。Claude Opus 4.7以58.0%领先,而GPT-5.5以52.9%的成绩和每问题一半的成本紧随其后。关键发现:在单项任务中表现良好并不自动意味着具备稳健的端到端科学研究能力。

Allen人工智能研究所(AI2)于2026年4月30日发布了更新的AstaBench排行榜——迄今为止最完整的AI智能体在科学研究背景下能力的公开评估。

AstaBench如何评估科学领域的AI模型?

AstaBench通过解决2400多个模拟真实研究挑战的问题来评估AI智能体——从数据分析和编码到文献综合和假设提出。该基准测试旨在超越孤立任务上常见的准确率排行榜。

2026年春季更新带来了扩展的模型集,并强调了经济维度:除准确率外,还公布了每解决问题的成本。

哪些模型领先,各自价格如何?

Claude Opus 4.7(Anthropic)以58.0%的成绩位居第一,使其成为根据AstaBench方法论在端到端解决科学智能体任务中的领先模型。

GPT-5.5(OpenAI)达到52.9%——低5.1个百分点——但每问题成本为1.61美元,而Opus 4.7为3.54美元。对于试图扩大实验规模的研究团队而言,54%的成本差距可能是决定性因素。

关键发现:为何高任务分数不能保证成功?

Allen研究所特别强调,在单项任务(如代码生成或数据分析)上的良好表现并不会自动转化为稳健的端到端科学研究能力。

复杂的智能体场景需要多步骤协调、长期规划和一致的上下文跟踪。在孤立子任务中表现出色的模型,当需要将这些能力整合为连贯的研究流程时,可能会遇到困难。

更广泛的背景和行业应用

AstaBench更新附带了对行业合作伙伴关系的说明,这表明商业部门对在研究过程中结构化评估AI的兴趣日益浓厚。

结果为研究机构提出了一个实际问题:领先模型更高的准确率是否值得每问题双倍的成本?答案取决于团队解决的任务类型和规模。

常见问题

AstaBench测量什么?
AstaBench(Allen AI研究所)评估AI智能体解决真实科学研究典型问题的能力——涵盖来自不同科学领域的2400多个任务。
为何GPT-5.5尽管准确率较低,仍可能是比Opus 4.7更好的选择?
GPT-5.5每问题成本为1.61美元,而Opus 4.7为3.54美元——在准确率仅相差5.1个百分点的情况下,54%的成本差距使GPT-5.5成为大规模实验的高性价比选择。
🤖

本文由人工智能基于一手来源生成。