评估

AI 评估

在模型发布前后,通过基准测试、人工评审和红队攻击,系统衡量 AI 模型能力、安全性与对齐程度的学科。

AI 评估(AI evaluation)是系统性衡量 AI 模型能力、安全性与对齐程度的学科。其目标是客观判定模型能做什么、在哪里出错、风险有多大——无论在发布之前还是之后。

评估综合运用多种方法。标准化的基准测试在固定任务集上为知识与技能打分;人工评估(A/B 对比、答案评分)能捕捉自动化测试遗漏的质量;红队以对抗方法发掘越狱与滥用,而幻觉、谄媚和欺骗行为也越来越多地被纳入测量。HELM 等整体性框架在准确率之外,还跟踪偏见、鲁棒性与毒性。

在 2025–2026 年,评估已成为管理 AI 安全对齐的核心环节。各实验室为每个前沿模型发布载有评估结果的”系统卡”,OpenAI 与 Anthropic 互相交叉评估对方模型,欧盟《AI 法案》及各国 AI 研究所更将其列为监管要求。核心挑战仍是基准饱和与污染:高分并不保证现实中的可靠性。

来源

另见