🟡 🤖 模型 2026年5月5日星期二 · 2 分钟阅读 ·

NIST CAISI:DeepSeek V4 Pro是迄今最强中国AI模型,但落后美国前沿约8个月

编辑插图:标示8个月差距的时间线上的AI模型,象征独立评估

美国NIST下属人工智能标准与创新中心(CAISI)于2026年5月1日发布了对DeepSeek V4 Pro模型的独立评估。结论:这是迄今评估过的最强中国AI模型,但在综合能力上落后美国前沿约8个月。评估使用未公开的基准测试,涵盖五个领域:网络安全、软件工程、自然科学、抽象推理和数学。

🤖

本文由人工智能基于一手来源生成。

美国国家标准与技术研究院(NIST)下属的人工智能标准与创新中心(CAISI)于2026年5月1日发布了对中国模型DeepSeek V4 Pro的独立评估。结果:该模型是迄今评估过的最强中国AI系统,但在综合能力上落后美国前沿约八个月

评估如何进行?

CAISI采用了五个领域的未公开(non-public)基准测试:网络安全、软件工程、自然科学、抽象推理和数学。使用未公开基准测试集是一种方法论选择,可防止污染——如果基准测试不公开,模型在训练过程中就无法接触到,因此结果反映的是真实能力而非记忆。

由此,CAISI结果显示的差距明显大于DeepSeek自行报告的数字。这是行业中的预期规律:公开基准测试容易受到污染,而私有基准测试能够更真实地估计前沿模型的能力。公开结果与私有结果之间的差距揭示了实验室模型「在考试上的训练」程度。

关于价格的具体发现?

尽管技术上存在差距,DeepSeek V4 Pro在七个测试集中的五个上比GPT-5.4 mini更便宜。价格差异从**低53%高41%**不等,具体取决于领域和任务特性。对于价格成本是关键指标的实际工作负载,经济优势在一定程度上弥补了技术差距。

对于评估多云战略或寻求模型多样化的企业买家而言,这一成本特征使DeepSeek V4 Pro成为合理的第二选择模型——不是作为主要旗舰,而是作为不需要绝对顶尖能力的任务的低成本替代方案。

这对中国AI市场定位意味着什么?

CAISI评估是第一份官方美国政府文件,以月份而非定性方式量化了美中AI差距。八个月是显著但并非不可逾越的差距。趋势显示DeepSeek正在缩小差距——V3落后约12-14个月,V4 Pro落后8个月。

从CAISI报告中得出的更广泛政策信息:美国的优势是真实的,但并非静态的。出口管制、GPU积累(在美国限制下)以及中国开放权重模型(Qwen、DeepSeek)的质量正在使国内替代方案越来越不像「接近前沿」。

评估报告可在nist.gov上获取,于2026年5月2日更新。

常见问题

DeepSeek V4 Pro落后美国前沿模型多少时间?
根据使用未公开基准测试的独立CAISI评估,综合能力约落后8个月。这一差距明显大于DeepSeek自行报告的结果所显示的差距。
测试涵盖哪些领域?
五个领域:网络安全、软件工程、自然科学、抽象推理和数学。CAISI使用未公开基准,以防止模型训练数据对结果造成污染。
性价比如何?
DeepSeek V4 Pro在7个测试集中的5个上比GPT-5.4 mini更便宜,价格差异从低53%到高41%不等,具体取决于领域和任务特性。经济优势在一定程度上弥补了技术差距。