ベンチマーク（benchmark）

**ベンチマーク（benchmark）**とは、特定のタスクにおけるAIモデルの能力を測定し、客観的に比較するための標準化されたテストやデータセットです。各ベンチマークは固定された問題群と採点方法（通常は正答率）を定めており、異なるモデルが比較可能な結果を得られます。

著名なベンチマークはさまざまな能力を対象とします。MMLUは57分野にわたる学術知識を、GPQAは博士課程レベルの自然科学の問題を、SWE-benchは実際のGitHubのバグ修正を、HumanEvalはプログラム合成を、MMMUは画像とテキストのマルチモーダル理解を評価します。スコアは新しいフロンティアモデルに付随するシステムカードで公開されます。

ベンチマークは2025〜2026年のAI評価の中核ですが、限界もあります。MMLUのような古いテストはすでに_飽和_しており（上位モデルは90%を超える）、テスト問題が学習データに混入する_汚染_のリスクもあります。高いスコアは実運用での信頼性やハルシネーションの不在を保証しないため、業界は特に推論モデル向けに、より難しく現実的なテストを継続的に開発しています。

出典

関連項目