NIST CAISI:DeepSeek V4 Proはこれまで評価した中で最も優れた中国AIモデルだが、米国フロンティアに8ヶ月遅れ
米国NIST傘下の人工知能標準・イノベーションセンター(CAISI)は2026年5月1日、DeepSeek V4 Proモデルの独立評価を発表しました。結論:これは評価されたPRC AIモデルの中で最も優れていますが、総合能力において米国フロンティアから約8ヶ月遅れています。評価は5つの分野(サイバーセキュリティ、ソフトウェアエンジニアリング、自然科学、抽象的推論、数学)における非公開ベンチマークを使用して実施されました。
この記事はAIにより一次情報源から生成されました。
米国人工知能標準・イノベーションセンター(CAISI)(国立標準技術研究所NIST傘下)は2026年5月1日、中国モデルDeepSeek V4 Proの独立評価を発表しました。結果:このモデルはこれまで評価された中で最も優れた中国のAIシステムですが、総合能力において米国フロンティアから約8ヶ月遅れています。
評価はどのように実施されたか?
CAISIは5つの分野において非公開(non-public)ベンチマークを適用しました:サイバーセキュリティ、ソフトウェアエンジニアリング、自然科学、抽象的推論、数学。非公開ベンチマークセットの使用は汚染を防ぐための方法論的選択です——ベンチマークが公開されていなければ、モデルはそれを訓練中に見ることができないため、結果は記憶ではなく実際の能力を反映します。
その結果、CAISI結果はDeepSeek自身の自己報告数字よりも大幅に大きな差を示しています。これは業界では予想される傾向です:公開ベンチマークは汚染を受けやすい一方、プライベートなベンチマークはフロンティアモデルの能力についてより現実的な推定を与えます。公開結果とプライベート結果の差は、研究所のモデルがどれほど「テストを訓練した」かを明らかにします。
価格に関する具体的な発見は?
技術的には遅れているものの、DeepSeek V4 Proは7つのテストセットのうち5つでGPT-5.4 miniより安価です。価格差は分野とタスクの特性によって53%低価格から41%高価格まで変動します。正解当たりのコストが重要な指標となる実際のワークロードにおいては、経済的優位性が技術的遅れを部分的に補います。
マルチクラウド戦略を評価している、またはモデルの多様化を望む企業の購買担当者にとって、このコストプロファイルはDeepSeek V4 Proを合理的なサブモデルにします——主力フラッグシップとしてではなく、絶対的なトップ能力を必要としないタスクの低コスト代替として。
これは中国のAI市場ポジションにとって何を意味するか?
CAISI評価は、米中のAIギャップを質的にではなく月単位で定量化した初の公式米国政府文書です。8ヶ月は大きいですが、越えられないギャップではありません。トレンドはDeepSeekが差を縮めていることを示しています——V3は約12〜14ヶ月遅れ、V4 Proは8ヶ月遅れです。
CAISIレポートから出てくる、より広い政策的メッセージ:米国の優位は現実ですが、静的ではありません。輸出規制、GPUの蓄積(米国の制限下)、そして中国のオープンウェイトモデル(Qwen、DeepSeek)の質が、国内代替品を「ほぼフロンティア」とはますます言えなくしています。
評価はnist.govで入手可能で、2026年5月2日に更新されました。
よくある質問
- DeepSeek V4 Proは米国のフロンティアモデルにどのくらい遅れていますか?
- 非公開ベンチマークを使用した独立したCAISI評価によると、総合能力で約8ヶ月遅れています。これはDeepSeek自身の自己報告結果が示すよりも大幅に大きい差です。
- テストはどの分野で実施されましたか?
- 5つの分野:サイバーセキュリティ、ソフトウェアエンジニアリング、自然科学、抽象的推論、数学。CAISIは結果がモデルの訓練データによって汚染されないよう非公開ベンチマークを使用しています。
- コストパフォーマンスはどうですか?
- DeepSeek V4 Proは7つのテストセットのうち5つでGPT-5.4 miniより安価で、価格差は分野とタスクの特性によって53%低価格から41%高価格まで変動します。経済的優位性が技術的遅れを部分的に補っています。