2026年春季AstaBench:Claude Opus 4.7が科学AIベンチマークで58%でトップ、GPT-5.5はコストが半分
アレン研究所が科学分野のAIエージェント向け2400問を含む更新AstaBenchリーダーボードを公開しました。Claude Opus 4.7が58.0%でトップ、GPT-5.5は52.9%で問題あたりのコストが半分以下です。主要な発見:特定のタスクでの高成績は、必ずしも堅牢なエンドツーエンドの科学的研究能力を意味しません。
Allen Institute for AI(AI2)は2026年4月30日、AIエージェントの科学研究における能力の最も包括的な公開評価となる更新AstaBenchリーダーボードを公開しました。
AstaBenchはどのように科学向けAIモデルを評価するか?
AstaBenchは実際の研究上の課題をシミュレートする2400以上の問題を解くことでAIエージェントを評価します——データ分析とコーディングから文献合成と仮説立案まで。このベンチマークは孤立したタスクでの一般的な精度ランキングを超えることを目指して設計されています。
2026年春季アップデートはモデルセットを拡大し、経済的な側面を強調しています:精度に加えて、解決済み問題あたりのコストも公開されています。
どのモデルがトップで、価格はどのくらいですか?
Claude Opus 4.7(Anthropic)はスコア58.0%で1位を占め、AstaBenchの方法論に従ったエンドツーエンドの科学的エージェントタスク解決における主要モデルとなっています。
GPT-5.5(OpenAI)は52.9%——5.1ポイント少ない——を達成しましたが、問題あたりのコストは1.61ドルでOpus 4.7の3.54ドルより低くなっています。実験を拡大しようとする研究チームにとって、その54%のコスト差は決定的な要因となり得ます。
主要な発見:なぜタスクの高スコアが成功を保証しないのか?
アレン研究所は特に、特定のタスク(コード生成やデータ分析など)での良いパフォーマンスが自動的に堅牢なエンドツーエンドの科学的研究に変換されるわけではないことを強調しています。
複雑なエージェントシナリオは複数ステップの調整、長期計画、一貫したコンテキストの追跡を必要とします。孤立したサブタスクで優れているモデルは、それらの能力を一貫した研究ワークフローに統合する必要があるときに苦労することがあります。
より広いコンテキストと産業応用
AstaBenchの更新は産業パートナーシップへの言及とともに公開されており、研究プロセスにおけるAIの構造化された評価への商業部門の関心の高まりを示しています。
結果は研究機関に実際的な問題を提起しています:主要モデルのより高い精度は問題あたり2倍のコストに値するのか?答えはチームが解決するタスクの種類と規模によります。
よくある質問
- AstaBenchは何を測定しますか?
- AstaBench(Allen Institute for AI)は、AIエージェントが実際の科学研究に典型的な問題を解く能力を測定します——様々な科学分野からの2400以上のタスクを含みます。
- なぜGPT-5.5は精度が低いにもかかわらずOpus 4.7より良い選択かもしれないのですか?
- GPT-5.5は問題あたり1.61ドル、Opus 4.7は3.54ドルのコストがかかります——精度の差がわずか5.1ポイントで54%のコスト差があるため、大規模な実験ではGPT-5.5がコスト効率の良い選択となります。
この記事はAIにより一次情報源から生成されました。