Subota, 23. svibnja 2026.

15 vijesti — 🔴 3 kritično , 🟡 7 važno , 🟢 5 zanimljivo

📦 Open Source (1)

🟢 📦 Open Source 23. svibnja 2026. · 4 min čitanja

Kedro: verzija 1.2.0 donosi @experimental dekorator i LangGraph agentic starter za GenAI pipeline-e

Editorial ilustracija: pipeline čvorovi s LangGraph orkestracijskim mostom i Mermaid dijagramom

Linux Foundation AI projekt Kedro objavio je verziju 1.2.0 zajedno s Kedro-Viz 12.3.0. Novi @experimental dekorator omogućuje označavanje API-ja u razvoju, a starter projekt support-agent-langgraph demonstrira integraciju s LangGraph orkestracijom i Langfuse/Opik prompt management alatima. Kedro-Viz dobiva Mermaid dijagrame i node preview extensibility za bolji pipeline debugging.

🤝 Agenti (4)

🔴 🤝 Agenti 23. svibnja 2026. · 3 min čitanja

arXiv:2605.22502: Kompiliranjem agentskih workflowa u LLM težine postiže se near-frontier kvaliteta uz 100 puta nižu cijenu

Editorial ilustracija: workflow čvorovi koji se urušuju u kompaktnu jezgru neuronske mreže

Istraživači su pokazali da se kompleksni agentski workflowi mogu enkodirati direktno u težine manjeg fine-tuned modela umjesto u eksternu orkestraciju poput LangChaina ili LangGraph-a. Pristup postiže near-frontier kvalitetu uz 100 puta nižu cijenu inferencije na tri stvarna scenarija: travel booking, Zoom support i osiguranje, s workflowima od 14 do 55 čvorova.

🔴 🤝 Agenti 23. svibnja 2026. · 3 min čitanja

arXiv:2605.22794: MOSS pokazuje agente koji se sami unapređuju mijenjajući vlastiti izvorni kod

Editorial ilustracija: AI agent koji prepravlja vlastiti izvorni kod u sandbox petlji

Istraživači su predstavili MOSS, framework za autonomne agente koji se poboljšavaju prepravljanjem svog izvornog koda — ne samo prompta ili fine-tuning težina. Na OpenClaw benchmarku jedan ciklus MOSS samoevolucije podiže rezultat s 0,25 na 0,61 bez ikakve ljudske intervencije, pokazujući da agenti mogu popraviti routing, hooks i dispatch logiku koju text-only metode ne dotiču.

🟡 🤝 Agenti 23. svibnja 2026. · 3 min čitanja

arXiv:2605.22535: TerminalWorld benchmark mjeri LLM agente na stvarnim Linux terminal zadacima bez simulacije

Editorial ilustracija: terminal prompt s git i bash naredbama i AI agent koji ih izvršava

TerminalWorld je novi benchmark koji evaluira LLM agente na stvarnim bash, git i file operacijama u pravim Linux procesima, bez simulacije. Osmoautorski rad pod vodstvom Zhaoyang Chu i Jiarui Hu postavlja novu ljestvicu za 'computer use' agente i direktno je relevantan za alate poput Claude Code, GitHub Copilot Workspace i Cursor agentic modea.

🟡 🤝 Agenti 23. svibnja 2026. · 3 min čitanja

Anthropic Claude Code v2.1.149 donosi per-category breakdown u /usage i zatvara PowerShell permission bypass

Editorial ilustracija: terminal s usage breakdown grafikonom i security štitom

Anthropic je objavio Claude Code CLI v2.1.149 koji proširuje /usage komandu s breakdown-om troškova po kategorijama (skills, subagents, plugins, per-MCP server). Release zatvara dva sigurnosna propusta: PowerShell permission bypass kroz built-in funkcije i krivu allowlist za git worktree sandbox. Dodan je i enterprise setting allowAllClaudeAiMcps za cloud MCP konektore.

🔧 Hardware (1)

🟢 🔧 Hardware 23. svibnja 2026. · 4 min čitanja

AMD: Gluon block-level model omogućuje GEMM kernele s 5.255 TFLOPS MXFP4 na Instinct MI355

Editorial ilustracija: GPU akcelerator s rasporedom matričnih jedinica i pipeline tokova

AMD ROCm tim objavio je tutorial za pisanje high-performance GEMM kernela u Gluon programskom modelu na MI355 GPU-u. Optimirani FP16 kernel postiže 1.489 TFLOPS uz 98,75 posto MFMA efikasnosti, dok proširenja na BF8 (3.257 TFLOPS) i MXFP4 (5.255 TFLOPS) demonstriraju relevantnost za moderne AI workloade. Tutorial uključuje workgroup remapping i swizzle koji reducira L2 cache misses s 5,3 M na 4,1 M.

🏥 U praksi (5)

🟡 🏥 U praksi 23. svibnja 2026. · 3 min čitanja

arXiv:2605.22681: CUSP benchmark pokazuje da frontier modeli ne mogu pouzdano predviđati znanstvene proboje

Editorial ilustracija: znanstvena krivulja s točkom prijeloma i AI sustav koji promaši predikciju

CUSP benchmark testira sposobnost AI modela da predviđa znanstvene proboje na bazi od 4.700 događaja. Frontier modeli (GPT-5, Claude Opus 4.7, Gemini 3 Pro) identificiraju plausibilne smjerove istraživanja, ali sustavno pogađaju ishode i timing s prekomjernom sigurnošću. Dodatan pre-cutoff kontekst ne pomaže — limitacija je strukturalna, ne informacijska.

🟡 🏥 U praksi 23. svibnja 2026. · 3 min čitanja

GitHub: Gartner Magic Quadrant 2026 — GitHub Copilot Leader treću godinu zaredom za Enterprise AI Coding Agents

Editorial ilustracija: kvadrant matrica s GitHub Copilot pozicioniranim u Leader sektoru

Gartner je u svojem Magic Quadrant izvještaju za 2026. pozicionirao GitHub kao Leadera u kategoriji Enterprise AI Coding Agents — treću godinu zaredom. GitHub Copilot trenutno koristi 140.000 organizacija širom svijeta, a ocjenjivanje je naglasilo agentic workflowove koji pokrivaju cijeli SDLC od koda do reviewa, sigurnosti i governance, ne samo generiranje koda.

🟢 🏥 U praksi 23. svibnja 2026. · 4 min čitanja

arXiv:2605.22337: Meta-Soft uvodi kompresiju KV cachea kroz composable meta-tokene i naučljive ortogonalne baze

Editorial ilustracija: meta-tokeni koji sažimaju attention cache u ortogonalnu baznu strukturu

Istraživači su predstavili Meta-Soft, novu metodu za dinamičku kompresiju KV cachea u LLM inferenciji. Pristup koristi naučljivu ortogonalnu baznu matricu i selektorski mrežu koji sintetiziraju soft meta-tokene — kompresirana reprezentacija ključnih informacija iz dugog prompta. Attention-flow mehanizam preraspoređuje semantičke informacije iz uklonjenih tokena u zadržane, nadmašujući postojeće KV cache eviction metode.

🟢 🏥 U praksi 23. svibnja 2026. · 4 min čitanja

arXiv:2605.22664: WorkstreamBench testira LLM agente na end-to-end spreadsheet zadacima u financijama i frontier modeli padaju

Editorial ilustracija: Excel spreadsheet s formulama i AI agent koji ih analizira

WorkstreamBench je novi benchmark s 10 autora pod vodstvom Thomsona Yena koji testira LLM agente na realnim Excel i spreadsheet zadacima u financijskoj domeni — fakture, izvještaji, analiza troškova. GPT-4o, Claude i Gemini se uspoređuju i nijedan ne prolazi pouzdano kroz cijeli skup zadataka, što ukazuje na strukturalne nedostatke u trenutnoj agentic infrastrukturi za enterprise financije.

🟢 🏥 U praksi 23. svibnja 2026. · 2 min čitanja

Anthropic Claude Code v2.1.150 — interni infrastrukturni patch bez korisničkih promjena

Editorial ilustracija: Claude Code terminal s verzijskim numeriranjem i internim cogwheel-ovima

Anthropic je u 04:03 UTC subote objavio Claude Code CLI verziju v2.1.150, samo dan nakon v2.1.149. Release sadrži isključivo interna infrastrukturna poboljšanja bez user-facing promjena. Dostupno za Darwin, Linux i Windows na ARM64 i x64 arhitekturama, kao i Linux musl builda.

🛡️ Sigurnost (3)

🔴 🛡️ Sigurnost 23. svibnja 2026. · 3 min čitanja

Anthropic: Project Glasswing pronašao 10.000 visokorizičnih ranjivosti u prvom mjesecu rada s Claude Mythos Preview

Editorial ilustracija: digitalni kompas iznad mreže koda s istaknutim ranjivim segmentima

Anthropic Project Glasswing okuplja oko 50 sigurnosnih partnera koji koriste Claude Mythos Preview za skeniranje kritičnog softvera. U prvih mjesec dana pronađeno je više od 10.000 visokorizičnih i kritičnih ranjivosti, dok su otvoreni open-source skeneri otkrili 6.202 propuste u tisuću projekata uz 90,6 posto stopu istinitih pogodaka.

🟡 🛡️ Sigurnost 23. svibnja 2026. · 3 min čitanja

arXiv:2605.22786: LCGuard štiti dijeljeni KV cache između agenata u multi-agent sustavima od curenja podataka

Editorial ilustracija: granica između dvije agenta zone s kriptografskim štitom oko KV cachea

LCGuard je novi framework za zaštitu od curenja podataka u multi-agent sustavima koji dijele KV cache radi efikasnosti. Rad istraživača iz IBM Researcha i MIT-a pod vodstvom Sadie Asif predstavlja prvi formalni model za 'latent communication guard' pristup, primjenjiv na produkcijske agentic RAG sustave gdje više agenata dijeli kontekst kroz zajedničku memoriju.

🟡 🛡️ Sigurnost 23. svibnja 2026. · 3 min čitanja

GitHub: npm 11.15.0 uvodi staged publishing i tri nova install-time --allow flaga za supply chain hardening

Editorial ilustracija: npm paket u staging odjeljku s ključem i sigurnosnim filterom

GitHub je objavio npm CLI verziju 11.15.0 koja donosi staged publishing — paketi sad zahtijevaju odobrenje maintainera prije nego što postanu dostupni za instalaciju. Uveden je i set od tri nova install-time flaga (--allow-file, --allow-remote, --allow-directory) uz postojeći --allow-git, za granularnu kontrolu izvora dependency-ja u npm install komandi.

✨ Zanimljivosti (1)

🟡 ✨ Zanimljivosti 23. svibnja 2026. · 4 min čitanja

arXiv:2605.22763: AI agent s Lean verifikacijom rješava 9 otvorenih Erdősovih problema i 44 OEIS konjekture

Editorial ilustracija: matematički simboli i Lean tipovi povezani u stablo formalnog dokaza

Tim od 20 istraživača iz DeepMinda i MIT CSAIL-a objavio je prvu large-scale evaluaciju LLM-ova za autonomno generiranje formalnih dokaza u Lean theorem proveru. Agent kombinira LLM generaciju s Lean simboličkom verifikacijom i autonomno rješava 9 od 353 otvorenih Erdősovih problema te dokazuje 44 od 492 OEIS konjektura.

← Prethodni dan Sljedeći dan →