NIST CAISI: DeepSeek V4 Pro 8 mjeseci iza US frontiera

Američki Center for AI Standards and Innovation (CAISI) pri NIST-u objavio je 1. svibnja 2026. nezavisnu evaluaciju DeepSeek V4 Pro modela. Zaključak: ovo je najsposobniji evaluirani PRC AI model do sada, ali u agregatnim mogućnostima zaostaje oko 8 mjeseci za američkim frontierom. Evaluacija je provedena pomoću nepubliciranih benchmarka u pet domena: kibernetička sigurnost, softversko inženjerstvo, prirodne znanosti, apstraktno zaključivanje i matematika.

Američki Center for AI Standards and Innovation (CAISI) pri Nacionalnom institutu za standarde i tehnologiju (NIST) objavio je 1. svibnja 2026. nezavisnu evaluaciju kineskog modela DeepSeek V4 Pro. Rezultat: model je najsposobniji evaluirani PRC AI sustav do sada, ali u agregatnim mogućnostima zaostaje za američkim frontierom oko osam mjeseci.

Kako je provedena evaluacija?

CAISI je primijenio nepublicirane (non-public) benchmarke u pet domena: kibernetička sigurnost, softversko inženjerstvo, prirodne znanosti, apstraktno zaključivanje i matematika. Korištenje neobjavljenih benchmark setova je metodološki izbor koji sprječava kontaminaciju — ako benchmark nije javan, model ga ne može vidjeti tijekom treninga, pa rezultati odražavaju stvarne sposobnosti, a ne memorizaciju.

Posljedica je da CAISI rezultati pokazuju značajno veći jaz nego DeepSeek-ovi vlastiti samoprijavljeni brojevi. To je očekivani obrazac u industriji: javni benchmarci podliježu kontaminaciji, dok privatni daju realistične estimate za frontier modele. Razlika između javnog i privatnog rezultata otkriva koliko je laboratorijski model “trenirao na testu”.

Koji su konkretni nalazi o cijeni?

Iako tehnički zaostaje, DeepSeek V4 Pro je jeftiniji od GPT-5.4 mini na pet od sedam testnih skupova. Razlika u cijeni varira od 53 % nižom do 41 % višom, ovisno o domeni i specifičnostima zadatka. Ekonomska prednost djelomično kompenzira tehničko zaostajanje za realne workloade gdje je cijena po točnom odgovoru ključna metrika.

Za poslovne kupce koji procjenjuju multi-cloud strategije ili koji žele diverzifikaciju modela, ovaj cost profile čini DeepSeek V4 Pro racionalnim drugim modelom — ne kao glavnim flagshipom, već kao jeftinom alternativom za zadatke koji ne zahtijevaju apsolutni vrh sposobnosti.

Što ovo znači za AI tržišnu poziciju Kine?

CAISI evaluacija je prvi službeni američki government dokument koji kvantificira US-PRC AI gap u mjesecima, a ne kvalitativno. Osam mjeseci je značajan, ali ne nepremostiv jaz. Trend pokazuje da se DeepSeek približava — V3 je zaostajao otprilike 12-14 mjeseci, V4 Pro 8 mjeseci.

Šira politička poruka koja izlazi iz CAISI rada: američka prednost je realna, ali nije statična. Export controls, akumulacija GPU-a (uz US ograničenja) i kvalitete kineskih open-weight modela (Qwen, DeepSeek) ujedno čine domaću alternativu sve manje “skoro frontier”.

Evaluacija je dostupna na nist.gov i ažurirana 2. svibnja 2026.

Česta pitanja

Koliko DeepSeek V4 Pro zaostaje za američkim frontier modelima?

U agregatnim mogućnostima oko 8 mjeseci, prema nezavisnoj CAISI evaluaciji koja koristi nepublicirane benchmarke. Ovo je značajno veći jaz nego što sugeriraju DeepSeek-ovi vlastiti samoprijavljeni rezultati.

U kojim domenama je proveden test?

Pet domena: kibernetička sigurnost, softversko inženjerstvo, prirodne znanosti, apstraktno zaključivanje i matematika. CAISI koristi nepublicirane (non-public) benchmarke kako rezultati ne bi bili kontaminirani trening podacima modela.

Kakav je odnos cijene i performansi?

DeepSeek V4 Pro je jeftiniji od GPT-5.4 mini na 5 od 7 testiranih skupova, s razlikom u cijeni od 53 % nižom do 41 % višom ovisno o domeni. Ekonomska prednost time djelomično kompenzira tehničko zaostajanje.

NIST CAISI: DeepSeek V4 Pro je najsposobniji kineski AI model do sada, ali zaostaje 8 mjeseci za američkim frontierom

Kako je provedena evaluacija?

Koji su konkretni nalazi o cijeni?

Što ovo znači za AI tržišnu poziciju Kine?

Česta pitanja

Izvori

Povezane vijesti