基准测试 (Benchmark)

基准测试（benchmark） 是用于衡量并客观比较 AI 模型在某项任务上能力的标准化测试或数据集。每个基准测试都规定了一组固定的问题或难题以及评分方式（通常为正确答案的百分比），因此不同模型可以得到可比较的结果。

知名的基准测试覆盖不同的能力维度：MMLU 考查涵盖 57 个学科的学术知识，GPQA 给出博士水平的自然科学问题，SWE-bench 让模型修复真实的 GitHub 缺陷，HumanEval 衡量程序合成能力，MMMU 则评测图像与文本的多模态理解。相关分数会随每个新的前沿模型在系统卡（system card）中公布。

基准测试是 2025—2026 年 AI 评测的核心，但也有局限。MMLU 等较早的测试已经_饱和_（领先模型超过 90%），还存在_污染_风险——测试题泄漏进训练数据。高分并不保证现实可靠性，也不代表没有幻觉，因此业界不断构建更难、更贴近实际的测试，尤其是针对推理模型。

来源

另见