BioMysteryBench：Mythos Preview 超越人类专家

Anthropic 于 2026 年 4 月 29 日发布了 BioMysteryBench，这是一个包含 99 个专业生物信息学任务的评估框架，使用来自实验数据的客观基准真值。Claude Opus 4.6 在 76 个人类可解问题上达到约 77.4% 的准确率，在 23 个超人类任务上达到 23.5%；而 Mythos Preview 解决了人类专家小组无法解答的部分问题——研究人员将此描述为 AI 在生物科学领域的分水岭时刻。

Anthropic 于 2026 年 4 月 29 日发布了 BioMysteryBench，这是一个用于评估 AI 模型生物信息学能力的全新评估框架。该基准包含 99 个由领域专家编制的任务，使用来自真实实验的杂乱数据，并根据实验发现中的客观基准真值对答案进行评分。这一方法直接针对科学评估中的三个核心问题：允许不同的方法论路径、存在客观答案，以及能够生成人类自身无法解决的问题。

BioMysteryBench 如何解决主观性问题？

大多数科学基准仅衡量模型是否与科学共识一致，这不允许发现新知识。BioMysteryBench 采用”方法无关”的方式——模型选择自己的分析工具，系统将最终的数字或分类答案与真实实验数据进行对照验证。任务示例包括：从单细胞 RNA-seq 数据集中识别人体器官、检测与对照组相比实验样本中被敲除的基因，以及从全基因组测序数据中确定家庭关系。

Claude 模型在基准测试中取得了哪些成绩？

在 76 个人类可解任务上，Claude Opus 4.6 达到约 77.4% 的准确率，Sonnet 4.6 约为 70%。在 23 个超人类任务上——即连经验丰富的生物信息学家小组都未能解答的问题——Opus 4.6 达到 23.5%，而 Mythos Preview 解决了 30%。Mythos Preview 同时领先于人类可解任务类别。Anthropic 指出，在更难的问题上可靠性显著下降：对于人类可解任务，Opus 4.6 在至少 5 次尝试中的 4 次给出正确答案的概率为 86%，而在超人类任务上这一数字降至 44%，这表明近一半的成功”是偶然出现而非可复现的”。

为什么 Anthropic 将此称为分水岭时刻？

Mythos Preview 得出了人类此前未能从相同数据中提取的科学结论。尽管该基准仍处于预览阶段（Hugging Face 上的 “Anthropic/BioMysteryBench-preview”），但结果表明 AI 不再仅仅是加速现有工作流程的助手，而是能够自主解决人类团队无法解决的研究问题。Anthropic 邀请研究人员通过 claude.com/lifesciences 门户使用该模型进行自己的分析。文章作者是探索团队的 Brianna。

常见问题

什么是 BioMysteryBench？

由领域专家编制的包含 99 个生物信息学问题的评估框架。它使用来自真实实验的杂乱数据，并根据经过验证的元数据中的客观基准真值而非主观科学结论来评分答案。

Claude Opus 4.6 在 BioMysteryBench 上的准确率是多少？

在 76 个人类可解任务上约为 77.4%，在 23 个超人类任务上为 23.5%。Sonnet 4.6 在人类可解类别上达到约 70%。

Mythos Preview 有何不同之处？

Mythos Preview 解决了 30% 的超人类任务，并在某些问题上超越了人类专家小组。Anthropic 将此描述为分水岭时刻，因为该模型从相同数据中得出了人类未能提取的科学结论。

BioMysteryBench：Mythos Preview 解决连专家都无法解答的生物信息学难题，Opus 4.6 在人类可解任务上达到 77.4%

BioMysteryBench 如何解决主观性问题？

Claude 模型在基准测试中取得了哪些成绩？

为什么 Anthropic 将此称为分水岭时刻？

常见问题

来源

相关新闻