评估

基准测试 (Benchmark)

用于衡量并客观比较 AI 模型在各类任务上能力的标准化测试或数据集,例如 MMLU、GPQA、SWE-bench、HumanEval 和 MMMU 等。

基准测试(benchmark 是用于衡量并客观比较 AI 模型在某项任务上能力的标准化测试或数据集。每个基准测试都规定了一组固定的问题或难题以及评分方式(通常为正确答案的百分比),因此不同模型可以得到可比较的结果。

知名的基准测试覆盖不同的能力维度:MMLU 考查涵盖 57 个学科的学术知识,GPQA 给出博士水平的自然科学问题,SWE-bench 让模型修复真实的 GitHub 缺陷,HumanEval 衡量程序合成能力,MMMU 则评测图像与文本的多模态理解。相关分数会随每个新的前沿模型在系统卡(system card)中公布。

基准测试是 2025—2026 年 AI 评测的核心,但也有局限。MMLU 等较早的测试已经_饱和_(领先模型超过 90%),还存在_污染_风险——测试题泄漏进训练数据。高分并不保证现实可靠性,也不代表没有幻觉,因此业界不断构建更难、更贴近实际的测试,尤其是针对推理模型

来源

另见