評価

ベンチマーク(benchmark)

AIモデルの能力を測定し比較するための標準化されたテストやデータセットで、MMLU、GPQA、SWE-bench、HumanEval、MMMUなどがあります。

**ベンチマーク(benchmark)**とは、特定のタスクにおけるAIモデルの能力を測定し、客観的に比較するための標準化されたテストやデータセットです。各ベンチマークは固定された問題群と採点方法(通常は正答率)を定めており、異なるモデルが比較可能な結果を得られます。

著名なベンチマークはさまざまな能力を対象とします。MMLUは57分野にわたる学術知識を、GPQAは博士課程レベルの自然科学の問題を、SWE-benchは実際のGitHubのバグ修正を、HumanEvalはプログラム合成を、MMMUは画像とテキストのマルチモーダル理解を評価します。スコアは新しいフロンティアモデルに付随するシステムカードで公開されます。

ベンチマークは2025〜2026年のAI評価の中核ですが、限界もあります。MMLUのような古いテストはすでに_飽和_しており(上位モデルは90%を超える)、テスト問題が学習データに混入する_汚染_のリスクもあります。高いスコアは実運用での信頼性やハルシネーションの不在を保証しないため、業界は特に推論モデル向けに、より難しく現実的なテストを継続的に開発しています。

出典

関連項目