NIST CAISI: DeepSeek V4 Pro ist bisher fähigstes chinesisches KI-Modell, liegt aber 8 Monate hinter US-Frontier
Das US-amerikanische Center for AI Standards and Innovation (CAISI) beim NIST veröffentlichte am 1. Mai 2026 eine unabhängige Bewertung des Modells DeepSeek V4 Pro. Fazit: Es ist das bisher fähigste bewertete KI-System der Volksrepublik China, hinkt dem US-Frontier in den aggregierten Fähigkeiten jedoch um rund 8 Monate hinterher. Die Evaluierung erfolgte anhand nicht-öffentlicher Benchmarks in fünf Bereichen: Cybersicherheit, Softwareentwicklung, Naturwissenschaften, abstraktes Schlussfolgern und Mathematik.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Das US-amerikanische Center for AI Standards and Innovation (CAISI) beim National Institute of Standards and Technology (NIST) veröffentlichte am 1. Mai 2026 eine unabhängige Bewertung des chinesischen Modells DeepSeek V4 Pro. Das Ergebnis: Das Modell ist das bisher fähigste bewertete KI-System der Volksrepublik China, liegt dem US-Frontier in den aggregierten Fähigkeiten jedoch um rund acht Monate hinterher.
Wie wurde die Evaluierung durchgeführt?
CAISI setzte nicht-öffentliche Benchmarks in fünf Bereichen ein: Cybersicherheit, Softwareentwicklung, Naturwissenschaften, abstraktes Schlussfolgern und Mathematik. Die Verwendung unveröffentlichter Benchmark-Sets ist eine methodische Entscheidung zur Verhinderung von Kontamination — wenn ein Benchmark nicht öffentlich ist, kann das Modell ihn während des Trainings nicht sehen, sodass die Ergebnisse tatsächliche Fähigkeiten widerspiegeln und keine Memorizierung.
Die CAISI-Ergebnisse zeigen daher einen deutlich größeren Abstand als DeepSeeks eigene selbst berichtete Zahlen. Das ist ein erwartetes Muster in der Branche: Öffentliche Benchmarks unterliegen der Kontamination, private liefern realistische Schätzungen für frontier-Modelle. Die Differenz zwischen öffentlichen und privaten Ergebnissen zeigt, wie stark ein Labormodell auf den Test trainiert wurde.
Welche konkreten Preis-Befunde gibt es?
Obwohl es technisch hinterherhinkt, ist DeepSeek V4 Pro auf fünf von sieben Testsets günstiger als GPT-5.4 mini. Der Preisunterschied reicht von 53 % günstiger bis 41 % teurer, je nach Bereich und Aufgabenspezifika. Der Kostenvorteil gleicht den technischen Rückstand bei realen Arbeitslasten teilweise aus, bei denen der Preis pro korrekter Antwort die Schlüsselmetrik ist.
Für Unternehmenskunden, die Multi-Cloud-Strategien bewerten oder Modelldiversifizierung anstreben, macht dieses Kostenprofil DeepSeek V4 Pro zu einem rationalen Zweitmodell — nicht als primären Flaggschiff, sondern als günstigere Alternative für Aufgaben, die nicht absolute Spitzenfähigkeiten erfordern.
Was bedeutet das für Chinas KI-Marktposition?
Die CAISI-Evaluierung ist das erste offizielle US-Regierungsdokument, das den US-PRC-KI-Abstand in Monaten quantifiziert statt qualitativ. Acht Monate ist ein bedeutender, aber kein unüberwindlicher Abstand. Der Trend zeigt, dass DeepSeek aufholt — V3 lag um etwa 12–14 Monate zurück, V4 Pro um 8 Monate.
Die übergeordnete politische Botschaft des CAISI-Papers: Der US-Vorsprung ist real, aber nicht statisch. Exportkontrollen, GPU-Akkumulation (mit US-Beschränkungen) und die Qualität chinesischer Open-Weight-Modelle (Qwen, DeepSeek) machen die heimische Alternative zunehmend weniger zu einer bloßen Annäherung.
Die Evaluierung ist auf nist.gov verfügbar und wurde am 2. Mai 2026 aktualisiert.
Häufig gestellte Fragen
- Wie weit liegt DeepSeek V4 Pro hinter den US-Frontier-Modellen?
- In den aggregierten Fähigkeiten um rund 8 Monate, gemäß der unabhängigen CAISI-Bewertung mit nicht-öffentlichen Benchmarks. Das ist ein deutlich größerer Abstand als DeepSeeks eigene selbst berichteten Ergebnisse vermuten lassen.
- In welchen Bereichen wurde getestet?
- In fünf Bereichen: Cybersicherheit, Softwareentwicklung, Naturwissenschaften, abstraktes Schlussfolgern und Mathematik. CAISI verwendet nicht-öffentliche Benchmarks, damit die Ergebnisse nicht durch Trainingsdaten des Modells kontaminiert werden.
- Wie ist das Preis-Leistungs-Verhältnis?
- DeepSeek V4 Pro ist auf 5 von 7 Testsets günstiger als GPT-5.4 mini, mit einem Preisunterschied von 53 % günstiger bis 41 % teurer je nach Bereich. Der Kostenvorteil gleicht den technischen Rückstand teilweise aus.
Verwandte Nachrichten
ArXiv AgentFloor: Kleine Open-Weight-Modelle (0,27B–32B) reichen für kurzfristige Agenten-Aufgaben aus; GPT-5 behält Vorteil nur bei langfristiger Planung
ArXiv Token Arena: kontinuierlicher Benchmark für Energie und Kognition zeigt 6,2-fachen Unterschied in Joule pro korrekter Antwort zwischen Endpunkten
AdaMeZO: Adam-Stil LLM-Fine-Tuning ohne Speicherung von Gradientenmomenten im GPU-Speicher