BioMysteryBench:Mythos Preview 解决连专家都无法解答的生物信息学难题,Opus 4.6 在人类可解任务上达到 77.4%
Anthropic 于 2026 年 4 月 29 日发布了 BioMysteryBench,这是一个包含 99 个专业生物信息学任务的评估框架,使用来自实验数据的客观基准真值。Claude Opus 4.6 在 76 个人类可解问题上达到约 77.4% 的准确率,在 23 个超人类任务上达到 23.5%;而 Mythos Preview 解决了人类专家小组无法解答的部分问题——研究人员将此描述为 AI 在生物科学领域的分水岭时刻。