AI2:AIエージェントは教科書レベルの科学の80%を解けるが、本物の科学的問題では20%にとどまる
なぜ重要か
Allen Institute for AIが、知識テストでのAIパフォーマンスと実際の科学的発見能力との間の劇的なギャップを明らかにする2つのベンチマークを分析しました。モデルは教科書レベルで80%に達する一方、複雑な科学タスクでは20%に低下します。
Allen Institute for AI(AI2)が、現在のAIシステムの能力における最も重要なギャップの一つを明らかにする分析を発表しました——「教科書的な知識」と実際の科学的発見を行う能力の違いです。
2つのベンチマーク、2つの物語
ScienceWorldは、仮想環境での基本的な科学実験をテストします——沸点の測定、遺伝的交配などです。興味深いことに、同じトピックの多肢選択問題で優秀な成績を収めていたモデルが、ScienceWorldでは当初10%以下にとどまりました。2025年初頭までに、トップモデルは**約80%**に達しましたが、小学4年生レベルの内容としてはまだ完璧ではありません。
DiscoveryWorldははるかに難易度が高く、8つの科学分野(プロテオミクス、疫学、放射性同位体年代測定など)にまたがる120のタスクで、仮説の形成、実験の設計、実行、分析が求められます。記憶された知識への依存を防ぐため、タスクは架空の文脈に設定されています。
厳しい比較結果
より複雑なDiscoveryWorldのタスクでは、AIエージェントはわずか約20%のタスクしか完了できない一方、高度な学位を持つ人間の科学者は**約70%**を達成しています。この50ポイントの差は、「事実を知っている」ことから「事実を発見に活用できる」ことまでの道のりがいかに遠いかを明確に示しています。
これが意味すること
これらの結果は、科学分野でのAIに対する熱狂の中で重要な現実確認を提供します。AIシステムはデータ処理やパターン認識に優れていますが、新しい実験を考案し、うまくいかないときに適応し、創造的に思考する能力は、依然として深く人間的なスキルのままです。