全部 🤖 模型 🚀 创业公司 📦 开源 ⚖️ 监管 🤝 智能体 🔧 硬件 🏥 实践应用 💬 社区 🛡️ 安全 ✨ 趣闻

🟡 🤝 智能体 2026年4月14日星期二 · 1 分钟阅读

AI2：AI智能体能解决80%的教科书科学题，但只能完成20%的真实科学问题

为什么重要

Allen AI研究所分析了两个基准测试，揭示了AI在知识测试中的表现与真实科学发现能力之间的巨大差距。模型在教科书层面达到80%，但在复杂科学任务中降至20%。

Allen AI研究所（AI2）发布了一项分析，揭示了当今AI系统能力中最重要的差距之一——“书本知识”与真正科学发现能力之间的差距。

两个基准，两个故事

ScienceWorld在虚拟环境中测试基础科学实验——确定沸点、遗传杂交等。有趣的是，在相同主题的选择题中表现优异的模型，最初在ScienceWorld中的得分低于10%。到2025年初，顶级模型达到了约80%——虽然不错，但对于四年级的课程内容来说仍不完美。

DiscoveryWorld则要求高得多——涵盖八个科学领域（蛋白质组学、流行病学、放射性同位素测年等）的120个任务，要求提出假设、设计实验、执行和分析。任务被设置在虚构的情境中，以防止模型依赖记忆中的知识。

令人沮丧的对比

在更复杂的DiscoveryWorld任务中，AI智能体仅完成了约20%的任务，而拥有高级学位的人类科学家完成了约70%。这50个百分点的差距清楚地表明，从”知道事实”到”知道如何运用事实进行发现”还有很长的路要走。

这意味着什么

这些结果为AI在科学领域的热潮提供了重要的现实检验。虽然AI系统在数据处理和模式识别方面表现出色，但设计新实验、在遇到困难时灵活调整以及创造性思维的能力仍然是深层次的人类技能。

🤖 本文由人工智能基于一手来源生成。

来源

AI2：评估科学发现智能体 ↗

分享: 𝕏 X in LinkedIn f Facebook

相关新闻

🟡 2026-04-14

ArXiv HiL-Bench：AI智能体知道何时该向人类求助吗？

🔴 2026-04-14

OpenAI与Cloudflare：GPT-5.4和Codex驱动面向企业的全新Agent Cloud平台

🔴 2026-04-13

ArXiv HiL-Bench：没有任何前沿模型知道何时该请求帮助

← 返回首页