🤖 24 AI
🔴 🤖 Modeli petak, 24. travnja 2026. · 3 min čitanja

DeepSeek objavio V4-Pro i V4-Flash: dva open-source modela s milijun tokena konteksta i 80,6 na SWE Verified

Editorial illustration: DeepSeek V4 modeli — moduli s milijun tokena

Zašto je bitno

DeepSeek je 24. travnja 2026. objavio V4-Pro (1,6T / 49B aktivnih) i V4-Flash (284B / 13B aktivnih), dva open-source modela s milijun tokena konteksta. V4-Pro postigao je 80,6 na SWE Verified, blizu Opusa 4.6, uz drastično smanjenu potrošnju memorije.

DeepSeek je u četvrtak, 24. travnja 2026., objavio preview izdanje serije V4, dva open-source modela otvorenih težina (weights): V4-Pro s 1,6 bilijuna ukupnih i 49 milijardi aktivnih parametara te V4-Flash s 284 milijarde ukupnih i 13 milijardi aktivnih. Oba modela podržavaju milijun tokena konteksta kao default preko svih službenih servisa.

Izdanje stiže u trenutku kada se natjecanje među frontier modelima seli iz domene čistih benchmark brojki u domenu efikasnosti pri dugom kontekstu i agentskih radnih tokova. DeepSeek je objavio težine na Hugging Face Hubu i popratni tehnički izvještaj.

Što donosi nova V4 arhitektura?

Ključna inovacija je hibridni attention mehanizam koji kombinira dvije komplementarne tehnike. Prva je CSA (Compressed Sparse Attention), koja komprimira svaka četiri tokena u jedan KV zapis pomoću naučenog pozicijskog pristupa, a zatim FP4 “Lightning Indexer” selektira top-k najrelevantnijih komprimiranih blokova po upitu.

Druga je HCA (Heavily Compressed Attention) s omjerom kompresije 128×, koja koristi gustu MQA (Multi-Query Attention) nad jako komprimiranim blokovima, bez potrebe za sparse selekcijom. Obje tehnike zadržavaju klizni prozor pune pažnje nad najnovijim tokenima.

Rezultat je KV cache svega 2 % u odnosu na standardni GQA-8 baseline. Pri 1M tokena konteksta, V4-Pro troši 27 % FLOPsa koje je trebao V3.2, a V4-Flash svega 10 %.

Koliko su dobri u stvarnim zadacima?

Na SWE Verified benchmarku, koji mjeri sposobnost modela da autonomno riješi stvarne GitHub bugove, V4-Pro-Max postiže 80,6 %, praktički izjednačenje s Anthropicovim Opusom 4.6-Max (80,8 %). Na Toolathlonu, koji mjeri orkestraciju alata, V4-Pro je prvi s 51,8 naspram 50,0 za Kimi K2.6.

Na internom benchmarku od 30 zadataka iz PyTorcha, CUDA-e, Rusta i C++-a, V4-Pro-Max pogađa 67 % zadataka, neznatno iza Opusa 4.5 (70 %) i znatno ispred Sonneta 4.5 (47 %). U internom developer survey-u među 91 DeepSeek inženjerom, 52 % je spremno zamijeniti primarni coding model, a dodatnih 39 % naginje prema “da”.

Kako funkcionira agentski post-training?

Uz arhitektonske promjene, DeepSeek je uveo interleaved thinking — lanac razmišljanja koji se zadržava preko granica korisničkih poruka u višekoračnim tool call tokovima. Bez alata model se ponaša klasično i briše reasoning pri svakoj novoj poruci.

Za tool pozive uveden je XML tool-call format s posebnim |DSML| tokenom. Primjer:

|DSML|
<tool_call>
  <function_name>search</function_name>
  <parameters>
    <param name="query" string="true">vrijeme u Zagrebu</param>
  </parameters>
</tool_call>

Prednost je smanjenje grešaka pri escapeanju ugniježđenih navodnika te razdvajanje stringovnih i strukturiranih parametara, što je tipičan problem JSON shema.

Što je DSec sandbox?

Za agentski reinforcement learning DeepSeek je izgradio DSec (DeepSeek Elastic Compute), Rust-baziranu infrastrukturu koja podržava četiri izvršna sloja: funkcijske pozive, kontejnere, microVM-ove (Firecracker) i pune VM-ove (QEMU). Sustav skalira do stotina tisuća paralelnih sandboxa i omogućuje “preemption-safe replay” — nastavak treninga bez ponovnog izvršavanja tool poziva.

Ova infrastruktura je razlog zašto V4 može biti treniran nad realnim tool okruženjima umjesto nad sintetičkim tragovima, što je primjetno u snazi na Toolathlon i MCPAtlas benchmarcima.

Kada stiže migracijski rok?

DeepSeek je paralelno objavio da će stari endpointi deepseek-chat i deepseek-reasoner biti u potpunosti ugašeni 24. srpnja 2026. u 15:59 UTC. Razvojni timovi koji koriste DeepSeek API imaju tri mjeseca za migraciju.

Nove verzije dostupne su u tri moda zaključivanja (non-think, think-high, think-max), a modeli su objavljeni u FP4 kvantizaciji za MoE experte i FP8 za ostatak, što dodatno smanjuje memorijske zahtjeve.

Za hrvatske razvojne timove koji žele self-hostati modele, V4-Flash je praktičnija opcija — 13 milijardi aktivnih parametara omogućuje inferenciju na standardnijem GPU hardveru nego što je to tražio V3.2.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.