NIST: DeepSeek V4 Pro 8 mjeseci iza frontier modela

Centar za AI standarde i inovacije pri NIST-u (CAISI) objavio je neovisnu evaluaciju kineskog modela DeepSeek V4 Pro na 9 benchmarka u 5 domena (kibernetika, software engineering, prirodne znanosti, abstract reasoning, matematika). Ključni nalaz: V4 zaostaje 8 mjeseci za frontier američkim modelima, posebno na rezoniranju i agentskim zadacima koje DeepSeek nije uključio u vlastiti tehnički izvještaj. Cijena upotrebe je niža od GPT-5.4 mini u 5 od 7 testova.

Centar za AI standarde i inovacije pri NIST-u (CAISI) objavio je neovisnu evaluaciju kineskog modela DeepSeek V4 Pro koja prvi put kvantificira jaz između najjačeg kineskog frontier sustava i američkih modela. Rezultat: V4 Pro je trenutno najsposobniji kineski model koji je CAISI ocijenio, ali ostaje otprilike 8 mjeseci iza frontier US modela na većini benchmarka. Evaluacija se posebno usredotočila na zadatke rezoniranja i agentske scenarije koje DeepSeek nije uključio u vlastiti tehnički izvještaj.

Koji benchmarci su testirani?

CAISI je proveo testiranje na 9 benchmarka u 5 domena:

Kibernetika: CTF-Archive-Diamond
Software engineering: SWE-Bench Verified, PortBench
Prirodne znanosti: FrontierScience, GPQA-Diamond
Abstract reasoning: ARC-AGI-2 semi-private
Matematika: OTIS-AIME-2025, PUMaC 2024, SMT 2025

Skup uključuje held-out evaluacije (PortBench, ARC-AGI-2 semi-private) koje DeepSeek nije imao u vlastitom radu, što omogućuje neovisnu provjeru generalizacije izvan benchmarka koje je razvijao kineski tim.

Koliki je stvarni jaz između modela?

Konkretni rezultati pokazuju nejednolik raspored:

CTF-Archive-Diamond: GPT-5.5 71%, Opus 4.6 46%, DeepSeek V4 32%, GPT-5.4 mini 32%
SWE-Bench Verified: GPT-5.5 81%, Opus 4.6 79%, DeepSeek V4 74%, GPT-5.4 mini 73%
PortBench: GPT-5.5 78%, Opus 4.6 60%, DeepSeek V4 44%, GPT-5.4 mini 41%
ARC-AGI-2 semi-private: GPT-5.5 79%, Opus 4.6 63%, DeepSeek V4 46%
GPQA-Diamond: GPT-5.5 96%, Opus 4.6 91%, DeepSeek V4 90%, GPT-5.4 mini 87%

DeepSeek V4 najbliže prilazi frontier-u na GPQA-Diamond (samo 6 postotnih bodova iza GPT-5.5) i SWE-Bench Verified (7 bodova iza), ali na CTF-Archive (kibernetika) i PortBench (held-out SWE) jaz se proširi na 30+ postotnih bodova. CAISI procjenjuje da ova distribucija odgovara 8 mjeseci zaostatka u prosjeku, s većim jazom na zadacima koji zahtijevaju multi-step rezoniranje i agentske kapacitete.

Što je s troškovima?

Cjenovna analiza pokazuje da je DeepSeek V4 Pro jeftiniji od GPT-5.4 mini u 5 od 7 testova, s rasponom od 53 % jeftinije do 41 % skuplje ovisno o benchmarku. To znači da iako V4 zaostaje u kvaliteti, ima konkretan ekonomski signal — za organizacije koje optimiziraju cost-per-task na zadacima gdje 8-mjesečni zaostatak ne smeta, V4 je realna opcija.

CAISI također potvrđuje da je DeepSeekov tehnički izvještaj naglašavao benchmarke gdje je V4 izgledao “otprilike na razini frontier US modela”, a slabija pozicija na ARC-AGI-2 semi-private, PortBench i CTF-Archive nije bila predstavljena. Ovo je primjer zašto su neovisne vladine evaluacije važne — daju kontekst marketinški oblikovanim self-report rezultatima.

Česta pitanja

Koliko DeepSeek V4 Pro zaostaje za zapadnim modelima?

Otprilike 8 mjeseci po procjeni CAISI-a. Konkretni primjeri: na CTF-Archive-Diamond V4 postiže 32% naspram GPT-5.5 71%, a na ARC-AGI-2 semi-private 46% naspram GPT-5.5 79% i Opus 4.6 63%.

Koja 9 benchmarka su testirana?

CTF-Archive-Diamond (kibernetika), SWE-Bench Verified i PortBench (software engineering), FrontierScience i GPQA-Diamond (prirodne znanosti), ARC-AGI-2 semi-private (abstract reasoning), OTIS-AIME-2025, PUMaC 2024, SMT 2025 (matematika).

Kakva je cjenovna usporedba?

DeepSeek V4 Pro je jeftiniji od GPT-5.4 mini u 5 od 7 testova, s rasponom od 53% jeftinije do 41% skuplje ovisno o benchmarku.

NIST CAISI evaluacija DeepSeek V4 Pro: 8 mjeseci zaostatka za frontier US modelima na 9 benchmarka u 5 domena

Koji benchmarci su testirani?

Koliki je stvarni jaz između modela?

Što je s troškovima?

Česta pitanja

Izvori

Povezane vijesti