Subota, 2. svibnja 2026.

9 vijesti — 🔴 2 kritično , 🟡 4 važno , 🟢 3 zanimljivo

← Prethodni dan Sljedeći dan →

🤖 Modeli (4)

🟡 🤖 Modeli 2. svibnja 2026. · 3 min čitanja

Latent-GRPO: stabilna RL optimizacija za latent reasoning — 7,86 boda na GSM8K-Aug i 4,27 boda na AIME uz 3-4× kraće reasoning chain-ove

Editorial illustration: kompresija mreže rezoniranja u sažeti latentni prostor

Istraživači predstavljaju Latent-GRPO, stabilizirani RL pristup za latent reasoning gdje se reasoning koraci komprimiraju u kontinuirane reprezentacije. Identificiraju tri fundamentalna problema direktnog GRPO u latent prostoru — invalid latent states, misalignment između reward signala i token update-a, te invalid averaged states — i rješavaju ih kombinacijom invalid-sample advantage maskinga, one-sided noise samplinga i optimal correct-path first-token selekcije. Rezultati: +7,86 Pass@1 na GSM8K-Aug i +4,27 boda na AIME, uz 3-4× kraće reasoning chain-ove.

🟡 🤖 Modeli 2. svibnja 2026. · 2 min čitanja

GitHub povlači GPT-5.2 i GPT-5.2-Codex iz Copilota 1. lipnja 2026. — migracija na GPT-5.5 i GPT-5.3-Codex

Editorial illustration: GitHub Copilot dashboard s novim modelom koji zamjenjuje stari

GitHub najavljuje povlačenje modela GPT-5.2 i GPT-5.2-Codex iz svih Copilot iskustava 1. lipnja 2026. Korisnici Chat-a, inline edita, ask i agent modusa te code completion prelaze na GPT-5.5, dok Codex korisnici prelaze na GPT-5.3-Codex. Iznimka je Copilot Code Review gdje GPT-5.2-Codex ostaje dostupan. Enterprise administratori moraju ručno omogućiti nove modele u model policies prije roka.

🟡 🤖 Modeli 2. svibnja 2026. · 2 min čitanja

NIST CAISI evaluacija DeepSeek V4 Pro: 8 mjeseci zaostatka za frontier US modelima na 9 benchmarka u 5 domena

Editorial illustration: vaga koja uspoređuje AI modele iznad geopolitičke karte

Centar za AI standarde i inovacije pri NIST-u (CAISI) objavio je neovisnu evaluaciju kineskog modela DeepSeek V4 Pro na 9 benchmarka u 5 domena (kibernetika, software engineering, prirodne znanosti, abstract reasoning, matematika). Ključni nalaz: V4 zaostaje 8 mjeseci za frontier američkim modelima, posebno na rezoniranju i agentskim zadacima koje DeepSeek nije uključio u vlastiti tehnički izvještaj. Cijena upotrebe je niža od GPT-5.4 mini u 5 od 7 testova.

🟢 🤖 Modeli 2. svibnja 2026. · 2 min čitanja

KellyBench: AI agenti upravljali kladioničarskim bankrollom u Premier Ligi — svi vodeći modeli izgubili novac

Editorial illustration: nogometni stadion s digitalnom analizom kvota

KellyBench je nova mjera za testiranje sekvencijalnog odlučivanja: AI agenti upravljaju kladioničarskim bankrollom kroz cijelu sezonu Premier lige 2023/24, koristeći statistike, postave i tržišne kvote. Svi testirani vodeći modeli izgubili su novac, a Claude Opus 4.6 postigao je 26,5% na ekspertskoj rubrici za sofisticiranost strategije.

🤝 Agenti (2)

💬 Zajednica (1)

🛡️ Sigurnost (2)

← Prethodni dan Sljedeći dan →