Utorak, 5. svibnja 2026.

15 vijesti — 🔴 3 kritično , 🟡 10 važno , 🟢 2 zanimljivo

🤖 Modeli (4)

🟡 🤖 Modeli 5. svibnja 2026. · 3 min čitanja

ArXiv AgentFloor: mali open-weight modeli (0,27B-32B) zadovoljavaju kratkoročne agentne zadatke, GPT-5 zadržava prednost samo u dugoročnom planiranju

Editorial ilustracija: ljestve sposobnosti s modelima različitih veličina na različitim razinama, simbolika tool-use evaluacije

Ranit Karmakar i Jayita Chatterjee predstavili su AgentFloor — determinističku mrežu od 30 zadataka organiziranu u šest razina sposobnosti, na kojoj su evaluirali 16 open-weight modela u rasponu od 0,27 do 32 milijardi parametara plus GPT-5. Zaključak: manji modeli su dovoljni za kratkoročne, strukturirane agentne zadatke, dok frontier modeli zadržavaju jasnu prednost samo na dugoročnom planiranju s ograničenjima.

🟡 🤖 Modeli 5. svibnja 2026. · 3 min čitanja

ArXiv Token Arena: kontinuirani benchmark koji ujedinjuje energiju i kogniciju, otkriva 6,2× razliku u jouleima po točnom odgovoru između endpointa

Editorial ilustracija: vaga koja mjeri energiju i kogniciju AI inference endpointa, simbolika multi-dimenzionalnog benchmarka

Yuxuan Gao, Megan Wang i Yi Ling Yu objavili su 1. svibnja 2026. Token Arenu — neprekidnu benchmarking platformu koja evaluira AI inference na razini krajnjih točaka (78 endpointa, 12 model familija). Otkrivaju da isti model na različitim endpointima može varirati do 12,5 bodova na math/code benchmarku, do reda veličine u tail latenciji i do faktora 6,2 u jouleima po točnom odgovoru. Platforma objavljuje rezultate pod CC BY 4.0 licencom.

🟡 🤖 Modeli 5. svibnja 2026. · 2 min čitanja

NIST CAISI: DeepSeek V4 Pro je najsposobniji kineski AI model do sada, ali zaostaje 8 mjeseci za američkim frontierom

Editorial ilustracija: AI model na vremenskoj liniji koja označava 8-mjesečno zaostajanje, simbolika nezavisne evaluacije

Američki Center for AI Standards and Innovation (CAISI) pri NIST-u objavio je 1. svibnja 2026. nezavisnu evaluaciju DeepSeek V4 Pro modela. Zaključak: ovo je najsposobniji evaluirani PRC AI model do sada, ali u agregatnim mogućnostima zaostaje oko 8 mjeseci za američkim frontierom. Evaluacija je provedena pomoću nepubliciranih benchmarka u pet domena: kibernetička sigurnost, softversko inženjerstvo, prirodne znanosti, apstraktno zaključivanje i matematika.

🟢 🤖 Modeli 5. svibnja 2026. · 2 min čitanja

arXiv:2605.02572: Dugi horizonti destabiliziraju LLM trening — ICML 2026 papir nudi 'horizon generalization' kao rješenje

Editorial illustration: napuknuta horizontalna linija s neuralnim čvorovima i tokovima podataka koji konvergiraju

ICML 2026 prihvaćen rad empirijski dokazuje da povećanje duljine task horizonta uzrokuje ozbiljnu nestabilnost LLM treninga zbog problema exploration i credit assignment. Rješenje koje predlažu: skraćivanje horizonta tijekom treninga uz eksplicitan 'horizon generalization' mehanizam na inferenci. Rad postavlja prva empirijska pravila za skaliranje task horizonta kod frontier modela.

⚖️ Regulacija (1)

🔴 ⚖️ Regulacija 5. svibnja 2026. · 2 min čitanja

NIST CAISI proširio frontier AI national security testiranje na Google DeepMind, Microsoft i xAI

Editorial illustration: vaga pravde okružena strujnim pločama i čipovima ispred globusa, simbol AI nacionalne sigurnosti

NIST Center for AI Standards and Innovation (CAISI) sklopio je 5. svibnja 2026. proširene sporazume s Google DeepMindom, Microsoftom i xAI-jem za pre-deployment i post-deployment testiranje frontier modela. CAISI je dosad proveo više od 40 evaluacija, uključujući neobjavljene state-of-the-art modele, a testiranja se rutinski izvode u klasificiranim okruženjima s uklonjenim safeguardima.

🤝 Agenti (3)

🟡 🤝 Agenti 5. svibnja 2026. · 3 min čitanja

ArXiv GUI-SD: prvi on-policy self-distillation framework za GUI grounding nadmašuje GRPO na šest benchmarkova u točnosti i efikasnosti treniranja

Editorial ilustracija: učitelj-učenik dinamika s vizualnim privilegiranim kontekstom GUI elementa, simbolika self-distillation-a

Yan Zhang, Daiqing Wu i Huawen Shen predstavili su GUI-SD — prvi on-policy self-distillation (OPSD) framework specifično za GUI grounding, sposobnost AI agenata da mapiraju prirodnojezične upute na vizualne koordinate elemenata sučelja. Sustav koristi privilegirani vizualni kontekst (bounding box i Gaussian soft mask) i entropy-guided distillation. Na šest reprezentativnih GUI grounding benchmarkova GUI-SD dosljedno nadmašuje GRPO-bazirane RL metode.

🟡 🤝 Agenti 5. svibnja 2026. · 2 min čitanja

AWS Bedrock AgentCore Optimization u previewu: automatizirana petlja od produkcijskih traga do A/B testa s OpenTelemetry trace-ovima

Editorial ilustracija: zatvorena petlja produkcije, evaluacije i A/B testa oko AI agenta, simbolika optimizacije

AWS je 4. svibnja 2026. predstavio AgentCore Optimization u previewu — automatiziranu petlju koja od produkcijskih traceova proizvodi konkretne preporuke za sistemski prompt i opise alata, batch evaluaciju protiv test seta i A/B testove sa statističkom značajnošću. Sustav prikuplja OpenTelemetry-kompatibilne trace-ove svake model pozicije, tool poziva i koraka zaključivanja, čime se ručno pogađanje ispravki zamjenjuje strukturiranim ciklusom temeljenom na produkcijskim podacima.

🟡 🤝 Agenti 5. svibnja 2026. · 3 min čitanja

AWS SageMaker AI dobiva agentne workflowe za fine-tuning s 9 ugrađenih vještina i integracijom Kiroa i Claude Codea

Editorial illustration: futuristička robotska ruka okružena s 9 modula i mrežom čipova

Amazon je 4. svibnja 2026. lansirao agent-guided workflowe u SageMaker AI s 9 ugrađenih skills agenata koji pokrivaju cijeli model customization lifecycle — od specifikacije use casea do deployanja. Sustav podržava SFT, DPO i RLVR trening metode, integrira se s Kiroom (default) i Claude Codeom u JupyterLab okruženju, te tvrdi da reducira mjesece specijaliziranog ML rada na dane.

🔧 Hardware (1)

🟡 🔧 Hardware 5. svibnja 2026. · 3 min čitanja

ArXiv SAGA: workflow-atomic GPU scheduling za AI agente postiže 1,64× brže task completion na 64-GPU klasteru, prihvaćeno na HPDC 2026

Editorial ilustracija: GPU klaster s povezanim agentnim workflow-ovima kao atomarnim jedinicama, simbolika scheduling-a

Tim Dongxin Guo, Jikun Wu i Siu Ming Yiu predstavio je 1. svibnja 2026. SAGA — workflow-atomic raspoređivač za AI agente na GPU klasterima koji tretira cijeli agent workflow kao jednu schedulable jedinicu umjesto pojedinačnih LLM poziva. Sustav postiže 1,64× geometrijsku sredinu smanjenja task completion vremena na 64-GPU klasteru i 99,2 % SLO postizanje pod multi-tenant opterećenjem. Rad je prihvaćen na HPDC 2026 u Clevelandu (13.-16. srpnja 2026.).

🏥 U praksi (2)

🟡 🏥 U praksi 5. svibnja 2026. · 2 min čitanja

arXiv:2605.02740: ReClaim — foundation model na 200 milijuna pacijentskih zapisa postiže mean AUC 75,6 % na 1000+ medicinskih zadataka

Editorial illustration: developer workspace s monitorima koji prikazuju kod, stetoskop i medicinski grafikoni

Novi arXiv preprint predstavlja ReClaim — foundation model s 1,7 milijardi parametara treniran na 43,8 milijardi medicinskih događaja iz 200 milijuna pacijentskih zapisa. Na više od 1000 dijagnostičkih zadataka postiže mean AUC od 75,6 %, značajno nadmašujući LightGBM (66,3 %) i Delphi specijalizirani model (69,4 %). Otvara novu klasu foundation modela treniranih na administrativnim zdravstvenim podacima.

🟡 🏥 U praksi 5. svibnja 2026. · 3 min čitanja

Anthropic Claude Code v2.1.128: 30+ ispravaka, .zip plugin podrška i ~3× manji cache_creation trošak za sub-agente

Editorial illustration: developer workspace s monitorima, .zip arhivom i progress bar instalacije plugina

Claude Code v2.1.128 (objavljen 4. svibnja 2026.) donosi 30+ poboljšanja: prikaz broja alata u /mcp panelu s flagging-om servera s 0 alata, podršku za .zip plugin arhive u --plugin-dir, fix EnterWorktree buga koji je gubio lokalne nepushed commite, ~3× smanjenje cache_creation troška za sub-agente, i fix crasha pri pipingu većem od 10 MB inputa.

💬 Zajednica (2)

🔴 💬 Zajednica 5. svibnja 2026. · 2 min čitanja

Anthropic s Blackstoneom, Hellman & Friedmanom i Goldman Sachsom osniva enterprise AI uslužnu tvrtku za mid-market

Editorial ilustracija: mreža poslovnih institucija povezana s središnjim AI čvorom, simbolika enterprise distribucije

Anthropic je 4. svibnja 2026. najavio osnivanje nove enterprise AI uslužne kompanije zajedno s Blackstoneom, Hellman & Friedmanom i Goldman Sachsom kao osnivačkim investitorima. Sequoia, Apollo Global Management, GIC, Leonard Green i General Atlantic pridružuju se kao dodatni partneri. Ciljano tržište su komercijalne banke, srednje proizvodne tvrtke i regionalni zdravstveni sustavi koji nemaju internih resursa za izgradnju Claude rješenja.

🟡 💬 Zajednica 5. svibnja 2026. · 3 min čitanja

IBM Think 2026: Krishna predstavio AI Operating Model temeljen na 4 stupa s watsonx Orchestrate, IBM Bobom i Sovereign Coreom

Editorial illustration: povezani zupčanici i mrežni čvorovi s centralnim hub-om koji predstavlja AI Operating Model

Na konferenciji Think 2026 u Bostonu IBM je 5. svibnja 2026. predstavio AI Operating Model — okvir od 4 stupa (agenti, podaci, automatizacija, hybrid) s next-gen watsonx Orchestrateom kao agentic control planeom, IBM Bobom kao agentnim development partnerom, Concert platformom za operacije i generally available Sovereign Coreom za regulatornu compliance. CEO Krishna upozorio na rastući 'AI divide' između enterprise kompanija.

🛡️ Sigurnost (2)

🔴 🛡️ Sigurnost 5. svibnja 2026. · 2 min čitanja

ArXiv: Vizualne slike zaobilaze sigurnosne filtre vision-language modela u 40,9 % slučajeva, otkrivaju autori na ICML 2026

Editorial ilustracija: probijena vizualna sigurnosna ljuska s tokom slika kroz pukotinu, simbolika napada na VLM filtere

Istraživači Aharon Azulay, Jan Dubiński i Zhuoyun Li predstavili su na ICML 2026 četiri klase napada koje koriste vizualnu modalnost za zaobilaženje sigurnosnog poravnanja vision-language modela. Vizualni šifratori postižu 40,9 % uspjeha na Claude Haiku 4.5 dok ekvivalentni tekstualni napadi probijaju samo 10,7 %, što potvrđuje da slika otvara klasu napada koja ne postoji u čisto jezičnim modelima.

🟢 🛡️ Sigurnost 5. svibnja 2026. · 2 min čitanja

CNCF: pinning na immutable digest, least-privilege tokeni i ephemeral runneri — recipe card za sigurniji GitHub Actions pipeline

Editorial ilustracija: zaključani CI/CD pipeline s pinanim digest oznakama, simbolika supply chain sigurnosti

Cloud Native Computing Foundation Technical Advisory Group za sigurnost objavila je 4. svibnja 2026. praktični vodič za zaštitu GitHub Actions CI/CD pipeline-a od supply chain napada. Marina Moore, Evan Anderson i Sherine Khoury formulirali su pet konkretnih praksi i naveli alate poput zizmor, frizbee, pinact, ratchet i Dependabot za njihovu provedbu.

← Prethodni dan Sljedeći dan →