BioMysteryBench:Mythos Preview が専門家でも解けないバイオインフォマティクス問題を解決、Opus 4.6 は人間が解ける課題で 77.4% を達成
Anthropic は 2026 年 4 月 29 日に BioMysteryBench を発表しました。これは実験データの客観的なグラウンドトゥルースを用いた、99 問の専門的なバイオインフォマティクス課題からなる評価フレームワークです。Claude Opus 4.6 は人間が解ける 76 問で約 77.4% の精度を、23 問の超人間的な課題で 23.5% を達成しています。一方、Mythos Preview は人間の専門家パネルでも解けなかった問題を解決しており、研究者たちはこれを生命科学における AI の転換点と表現しています。
Anthropic は 2026 年 4 月 29 日に BioMysteryBench を発表しました。これは AI モデルのバイオインフォマティクス能力を評価するための新しい評価フレームワークです。ベンチマークには領域専門家が作成した 99 問の課題が含まれ、実際の実験から得られた雑然としたデータを使用し、実験的知見の客観的なグラウンドトゥルースに対して回答を採点します。このアプローチは科学的評価における 3 つの重要な問題に直接対処しています。すなわち、異なる方法論的アプローチを許容すること、客観的な答えが存在すること、そして人間自身では解けない問題を生成できることです。
BioMysteryBench は主観性の問題をどのように解決しますか?
ほとんどの科学ベンチマークは、モデルが科学的コンセンサスに同意するかどうかのみを測定しており、これでは新たな発見を許容できません。BioMysteryBench は「手法に依存しない」アプローチを採用しています。モデルは独自の分析ツールを選択し、システムは最終的な数値または分類の回答を実際の実験データと照合します。課題の例としては、single-cell RNA-seq データセットからの人体臓器の特定、対照群と比較した実験サンプルでノックアウトされた遺伝子の検出、全ゲノム配列決定データからの家族関係の確定などがあります。
Claude モデルはベンチマークでどのような成績を収めましたか?
人間が解ける 76 問では、Claude Opus 4.6 が約 77.4% の精度を達成し、Sonnet 4.6 は約 70% です。経験豊富なバイオインフォマティシャンのパネルでも解けなかった 23 問の超人間的な課題では、Opus 4.6 が 23.5% を達成し、Mythos Preview は 30% を解決しました。Mythos Preview は人間が解けるカテゴリでも首位に立っています。Anthropic は、より難しい問題では信頼性が大幅に低下することを指摘しています。人間が解ける課題では、Opus 4.6 が 5 回の試行のうち少なくとも 4 回で正解する確率が 86% ですが、超人間的な課題ではその数字が 44% に低下しており、成功例のほぼ半数は「再現可能ではなく偶発的に生じている」ことが示唆されます。
Anthropic がこれを転換点と呼ぶ理由は何ですか?
Mythos Preview は、人間がこれまで同じデータから引き出せなかった科学的結論を導き出しています。ベンチマークはまだプレビュー段階(Hugging Face の「Anthropic/BioMysteryBench-preview」)ですが、この結果は AI がもはや既存のワークフローを加速させるだけのアシスタントではなく、人間チームが解決できない研究上の問いを自律的に解決できることを示唆しています。Anthropic は研究者に対し、claude.com/lifesciences ポータルを通じて独自の分析にモデルを活用するよう呼びかけています。記事の著者はディスカバリーチームの Brianna です。
よくある質問
- BioMysteryBench とは何ですか?
- 領域専門家が作成した 99 問のバイオインフォマティクス問題からなる評価フレームワークです。実際の実験から得られた雑然としたデータを使用し、主観的な科学的判断ではなく検証済みメタデータの客観的なグラウンドトゥルースに基づいて回答を採点します。
- Claude Opus 4.6 の BioMysteryBench での精度はどのくらいですか?
- 人間が解ける 76 問で約 77.4%、23 問の超人間的な課題で 23.5% です。Sonnet 4.6 は人間が解けるカテゴリで約 70% を達成しています。
- Mythos Preview は何が違うのですか?
- Mythos Preview は超人間的な課題の 30% を解決し、一部の問題では人間の専門家パネルを上回っています。Anthropic はこれを転換点と表現しており、モデルが同じデータから人間が引き出せなかった科学的結論を導き出しているためです。
この記事はAIにより一次情報源から生成されました。