NIST CAISI：DeepSeek V4 Pro落后美国前沿8个月

美国NIST下属人工智能标准与创新中心（CAISI）于2026年5月1日发布了对DeepSeek V4 Pro模型的独立评估。结论：这是迄今评估过的最强中国AI模型，但在综合能力上落后美国前沿约8个月。评估使用未公开的基准测试，涵盖五个领域：网络安全、软件工程、自然科学、抽象推理和数学。

美国国家标准与技术研究院（NIST）下属的人工智能标准与创新中心（CAISI）于2026年5月1日发布了对中国模型DeepSeek V4 Pro的独立评估。结果：该模型是迄今评估过的最强中国AI系统，但在综合能力上落后美国前沿约八个月。

评估如何进行？

CAISI采用了五个领域的未公开（non-public）基准测试：网络安全、软件工程、自然科学、抽象推理和数学。使用未公开基准测试集是一种方法论选择，可防止污染——如果基准测试不公开，模型在训练过程中就无法接触到，因此结果反映的是真实能力而非记忆。

由此，CAISI结果显示的差距明显大于DeepSeek自行报告的数字。这是行业中的预期规律：公开基准测试容易受到污染，而私有基准测试能够更真实地估计前沿模型的能力。公开结果与私有结果之间的差距揭示了实验室模型「在考试上的训练」程度。

尽管技术上存在差距，DeepSeek V4 Pro在七个测试集中的五个上比GPT-5.4 mini更便宜。价格差异从**低53%到高41%**不等，具体取决于领域和任务特性。对于价格成本是关键指标的实际工作负载，经济优势在一定程度上弥补了技术差距。

对于评估多云战略或寻求模型多样化的企业买家而言，这一成本特征使DeepSeek V4 Pro成为合理的第二选择模型——不是作为主要旗舰，而是作为不需要绝对顶尖能力的任务的低成本替代方案。

CAISI评估是第一份官方美国政府文件，以月份而非定性方式量化了美中AI差距。八个月是显著但并非不可逾越的差距。趋势显示DeepSeek正在缩小差距——V3落后约12-14个月，V4 Pro落后8个月。

从CAISI报告中得出的更广泛政策信息：美国的优势是真实的，但并非静态的。出口管制、GPU积累（在美国限制下）以及中国开放权重模型（Qwen、DeepSeek）的质量正在使国内替代方案越来越不像「接近前沿」。

评估报告可在nist.gov上获取，于2026年5月2日更新。

常见问题

DeepSeek V4 Pro落后美国前沿模型多少时间？

根据使用未公开基准测试的独立CAISI评估，综合能力约落后8个月。这一差距明显大于DeepSeek自行报告的结果所显示的差距。

测试涵盖哪些领域？

五个领域：网络安全、软件工程、自然科学、抽象推理和数学。CAISI使用未公开基准，以防止模型训练数据对结果造成污染。

性价比如何？

DeepSeek V4 Pro在7个测试集中的5个上比GPT-5.4 mini更便宜，价格差异从低53%到高41%不等，具体取决于领域和任务特性。经济优势在一定程度上弥补了技术差距。