Četvrtak, 7. svibnja 2026.

19 vijesti — 🔴 4 kritično , 🟡 14 važno , 🟢 1 zanimljivo

🤖 Modeli (3)

🟡 🤖 Modeli 7. svibnja 2026. · 2 min čitanja

arXiv:2605.03195: Terminus-4B — 4 milijarde parametara za terminal execution izjednačava Claude Opus i GPT-5.3-Codex na SWE-Bench Pro uz ~30 % niže tokene glavnog agenta

Editorial illustration: dva koncentrična kruga — manji 4B model za terminal i veći frontier model za planiranje povezani strelicom delegacije zadataka

Terminus-4B je 4-milijardni Qwen3 fine-tune specijaliziran za terminal execution u agentskim sustavima — na SWE-Bench Pro benchmarku izjednačava i ponekad nadmašuje Claude Sonnet/Opus i GPT-5.3-Codex baseline, a smanjuje potrošnju tokena glavnog agenta do otprilike 30 % izolacijom verbose build/test logova u subagent kontekstu.

🟡 🤖 Modeli 7. svibnja 2026. · 2 min čitanja

arXiv:2605.04908: Gosset s kuriranom farmaceutskom bazom nadmašuje frontier LLM-ove 3,2 puta

Editorial illustration: 2605.04908: Gosset s kuriranom farmaceutskom bazom nadmašuje frontier LLM-ove 3,2 puta

Gosset je specijalizirana AI platforma s kuriranim farmaceutskim podacima koja je u usporedbi s četiri frontier sustava vratila 3,2 puta više verificiranih lijekova po upitu, uz 100% preciznost i potpun recall na deset niše onkoloških i imunoloških meta.

🟡 🤖 Modeli 7. svibnja 2026. · 2 min čitanja

Google: Gemini API dobiva multimodalno File Search pretraživanje slika i breaking change u Interactions API-ju

Editorial illustration: Gemini API dobiva multimodalno File Search pretraživanje slika i breaking change u Interactions API-ju

Google je proširio Gemini File Search na multimodalno pretraživanje slika koristeći gemini-embedding-2 model, s media_id u grounding metadati za vizualne citacije. Istovremeno najavljuje breaking change u Interactions API-ju gdje outputs postaje steps, s novim defaultom 20.05.2026. i uklanjanjem stare scheme 06.06.2026.

📦 Open Source (1)

🟡 📦 Open Source 7. svibnja 2026. · 2 min čitanja

AMD: vLLM-ATOM plugin donosi Instinct optimizacije bez izmjena vLLM koda

Editorial illustration: vLLM-ATOM plugin donosi Instinct optimizacije bez izmjena vLLM koda

AMD je objavio vLLM-ATOM, open-source plugin koji integrira optimizacije za Instinct GPU-ove u vLLM production framework bez izmjena izvornog koda. Aktivira se automatski kroz Python entry_points, podržava dense i MoE modele uključujući Kimi-K2.5 i DeepSeek V3/R1, a koristi AITER kernele za fused MoE i flash attention.

⚖️ Regulacija (1)

🔴 ⚖️ Regulacija 7. svibnja 2026. · 2 min čitanja

EU AI Office: Politički sporazum o pojednostavljenju AI Act-a i zabrani nudification aplikacija

Editorial illustration: Politički sporazum o pojednostavljenju AI Act-a i zabrani nudification aplikacija

Europska komisija, Parlament i Vijeće postigli su politički sporazum o Digital Omnibus paketu koji pojednostavljuje AI Act i uvodi zabranu nudification aplikacija. Visokorizični AI sustavi primjenjivat će se od 02.12.2027., a AI integriran u proizvode od 02.08.2028.

🤝 Agenti (5)

🔴 🤝 Agenti 7. svibnja 2026. · 2 min čitanja

arXiv:2605.06651: Google DeepMind predstavlja AI Co-Mathematician s 48% na FrontierMath Tier 4

Editorial illustration: 2605.06651: Google DeepMind predstavlja AI Co-Mathematician s 48% na FrontierMath Tier 4

Google DeepMind tim objavio je rad o AI Co-Mathematicianu, interaktivnoj radnoj površini gdje agenti surađuju s matematičarima na otvorenim problemima. Sustav je postigao 48% na FrontierMath Tier 4 benchmarku — novi rekord među svim AI sustavima.

🟡 🤝 Agenti 7. svibnja 2026. · 2 min čitanja

Anthropic: Managed Agents dobivaju multiagent sesije, Outcomes, webhooks i vault refresh u javnoj beti

Editorial illustration: dijagram više Claude agenata povezanih u jedan session canvas s vault i webhook ikonama

Claude Managed Agents su Anthropic-ova upravljana platforma za autonomne agente koja je 6. svibnja 2026. dobila četiri nova feature-a u javnoj beti: multiagent sesije, Outcomes mehanizam za definiranje ciljeva, webhooks za session i vault lifecycle događaje, te background refresh za mcp_oauth credentials. Dodani su i novi filteri za sesije po statusu i za eventove po tipu i vremenu kreiranja.

🟡 🤝 Agenti 7. svibnja 2026. · 2 min čitanja

GitHub: validacija agentskog ponašanja preko dominator analize iz teorije kompilatora postiže 100 % točnost vs 82 % agent self-assessment

Editorial illustration: dijagram graf strukture s istaknutim dominator čvorovima koji predstavljaju esencijalne korake u agentskom izvršavanju

GitHub objavljuje validacijski okvir za nedeterminističke AI agente koji posuđuje dominator analizu iz teorije kompilatora — iz 2 do 10 uspješnih izvršavanja Copilot Coding Agenta sustav uči koji su koraci esencijalni, a koji opcionalni, te postiže 100 % točnost u razlikovanju agentskih bugova od pravih regresija proizvoda.

🟡 🤝 Agenti 7. svibnja 2026. · 2 min čitanja

GitHub: Copilot za VS Code dobiva pristup terminalima i vlastite API ključeve

Editorial illustration: Copilot za VS Code dobiva pristup terminalima i vlastite API ključeve

GitHub Copilot za Visual Studio Code u travanjskom je ciklusu (verzije 1.116-1.119) dobio semantičku pretragu kroz cijelu bazu koda, agentski pristup otvorenim terminalima i mogućnost priključivanja vlastitih API ključeva za Anthropic, OpenAI i druge davatelje.

🟡 🤝 Agenti 7. svibnja 2026. · 2 min čitanja

vLLM: integracija Mooncake distributed KV cache storea donosi 3,8× veći throughput i 46× nižu P50 TTFT za multi-turn agentske workloade

Editorial illustration: mreža GPU čvorova povezanih RDMA linkovima sa centralnim distributed KV cache poolom

vLLM integrira Mooncake distributed KV cache store koji eliminira ponovljeno računanje prefiksa između agentskih turnova — na realističnim Codex traceovima na 12 GB200 GPU-ova throughput raste 3,8×, P50 TTFT pada 46×, end-to-end latencija 8,6×, a cache hit rate skače s 1,7 % na 92,2 %.

🔧 Hardware (1)

🔴 🔧 Hardware 7. svibnja 2026. · 3 min čitanja

NVIDIA: Spectrum-X Multipath Reliable Connection postaje OCP otvoreni standard za gigascale AI mreže

Editorial illustration: paralelne svjetlovodne staze između AI rack-ova s natpisom MRC, Spectrum-X i OCP open standard

NVIDIA Spectrum-X Multipath Reliable Connection (MRC) je RDMA transportni protokol koji distribuira jednu vezu preko više mrežnih putova i sada je objavljen kao otvorena specifikacija kroz Open Compute Project. MRC je već u produkciji kod OpenAI-a, Microsoftovog Fairwater data centra i Oracleovog Abilene data centra, a razvijen je u suradnji s AMD-om, Broadcomom, Intelom i Microsoftom.

🏥 U praksi (4)

🟡 🏥 U praksi 7. svibnja 2026. · 2 min čitanja

Anthropic: Claude Code v2.1.132 donosi 25+ popravaka i nove env varijable za hookove

Editorial illustration: Claude Code v2.1.132 donosi 25+ popravaka i nove env varijable za hookove

Anthropic je objavio Claude Code v2.1.132 sa 25+ ispravaka i dvije nove varijable okruženja: CLAUDE_CODE_SESSION_ID za hook integraciju i CLAUDE_CODE_DISABLE_ALTERNATE_SCREEN za native scrollback. Riješen je i ozbiljan bug s 10GB+ RSS rastom memorije kod MCP servera.

🟡 🏥 U praksi 7. svibnja 2026. · 2 min čitanja

Anthropic: Claude Code v2.1.133 donosi worktree.baseRef i popravak race conditiona

Editorial illustration: Claude Code v2.1.133 donosi worktree.baseRef i popravak race conditiona

Anthropic je objavio Claude Code v2.1.133 s novim parametrima worktree.baseRef, sandbox.bwrapPath/socatPath i okolišnom varijablom CLAUDE_EFFORT u hookovima. Verzija popravlja race condition u paralelnim sesijama i probleme na Windows drive root putanjama. Treći release ovog tjedna nakon v2.1.131 i v2.1.132.

🟡 🏥 U praksi 7. svibnja 2026. · 2 min čitanja

GitHub: Optimizacijom agentnih workflowa postignute uštede tokena od 19% do 62%

Editorial illustration: Optimizacijom agentnih workflowa postignute uštede tokena od 19% do 62%

GitHub je instrumentirao produkcijske agentne workflowe i identificirao tri glavna izvora rasipanja tokena: nepotrebne MCP alate, deterministično dohvaćanje podataka i pogrešno konfigurirana bash pravila. Optimizacijom je postignuta ušteda od 19% do 62% po workflowu.

🟢 🏥 U praksi 7. svibnja 2026. · 2 min čitanja

arXiv:2605.04012: SymptomAI u Fitbit aplikaciji s 13.917 pacijenata nadmašuje nezavisne kliničare u diferencijalnoj dijagnozi

Editorial illustration: korisnik razgovara sa SymptomAI agentom u Fitbit aplikaciji dok pozadinski panel prikazuje rangiranu listu dijagnoza

SymptomAI je konverzacijski AI agent integriran u Fitbit aplikaciju i testiran na otprilike 13.917 sudionika; u podskupu kliničke evaluacije njegove dijagnostičke preporuke postigle su odds ratio 2,47 u odnosu na nezavisne kliničare koji su ocjenjivali iste razgovore. Studija je preprint.

💬 Zajednica (1)

🔴 💬 Zajednica 7. svibnja 2026. · 3 min čitanja

Anthropic: SpaceX postaje compute partner s 300 MW i dvostrukim Claude Code limitima

Anthropic je sklopio compute partnerstvo sa SpaceX-om koje donosi više od 300 MW novog kapaciteta i preko 220.000 NVIDIA GPU-a u Colossus 1 data centru unutar mjesec dana. Istovremeno udvostručuju petosatne rate limite za Claude Code Pro, Max, Team i Enterprise korisnike te dižu API limite za Opus model.

🛡️ Sigurnost (3)

🟡 🛡️ Sigurnost 7. svibnja 2026. · 2 min čitanja

arXiv:2605.04019: automatizirani red teaming agent postiže 85 % uspjeha protiv Mete Llama Scout uz 45+ napada i 450+ transformacija

Editorial illustration: automatizirani agent simultano pokreće desetke napadačkih vektora protiv jezičnog modela na ekranu kontrolne ploče

Novi rad predstavlja agentski red teaming sustav izgrađen na Dreadnode SDK-u koji s 45+ napada, 450+ transformacija i 130+ scorera postiže 85 % stopu uspjeha protiv Mete Llama Scout, skraćujući sigurnosno testiranje s tjedana na sate i bez ručno pisanog koda.

🟡 🛡️ Sigurnost 7. svibnja 2026. · 2 min čitanja

arXiv:2605.04785: AgentTrust presreće pozive alata AI agenata uz 95-97% točnost

Editorial illustration: 2605.04785: AgentTrust presreće pozive alata AI agenata uz 95-97% točnost

AgentTrust je open-source runtime sustav koji presreće pozive alata AI agenata — file operacije, SQL upite i shell naredbe — i pred izvršenjem vraća jednu od četiri presude. Na 930 testnih scenarija postiže 95 do 97% točnosti, a oko 93% na shell-obfusciranim napadima.

🟡 🛡️ Sigurnost 7. svibnja 2026. · 2 min čitanja

arXiv:2605.06390: Automatizirano alignment istraživanje teže je nego što izgleda

Editorial illustration: 2605.06390: Automatizirano alignment istraživanje teže je nego što izgleda

Novi rad četvero istraživača — uključujući Geoffrey Irvinga (DeepMind/Anthropic) — argumentira da AI agenti ne mogu pouzdano automatizirati alignment istraživanje. Bez jasnih kriterija evaluacije, optimizacijski pritisak generira uvjerljive ali katastrofalno pogrešne sigurnosne procjene koje ljudski recenzenti teško detektiraju.

← Prethodni dan Sljedeći dan →