Subota, 23. svibnja 2026.

15 vijesti — 🔴 3 kritično , 🟡 7 važno , 🟢 5 zanimljivo

← Prethodni dan

📦 Open Source (1)

🤝 Agenti (4)

🔴 🤝 Agenti 23. svibnja 2026. · 3 min čitanja

arXiv:2605.22502: Kompiliranjem agentskih workflowa u LLM težine postiže se near-frontier kvaliteta uz 100 puta nižu cijenu

Editorial ilustracija: workflow čvorovi koji se urušuju u kompaktnu jezgru neuronske mreže

Istraživači su pokazali da se kompleksni agentski workflowi mogu enkodirati direktno u težine manjeg fine-tuned modela umjesto u eksternu orkestraciju poput LangChaina ili LangGraph-a. Pristup postiže near-frontier kvalitetu uz 100 puta nižu cijenu inferencije na tri stvarna scenarija: travel booking, Zoom support i osiguranje, s workflowima od 14 do 55 čvorova.

🔴 🤝 Agenti 23. svibnja 2026. · 3 min čitanja

arXiv:2605.22794: MOSS pokazuje agente koji se sami unapređuju mijenjajući vlastiti izvorni kod

Editorial ilustracija: AI agent koji prepravlja vlastiti izvorni kod u sandbox petlji

Istraživači su predstavili MOSS, framework za autonomne agente koji se poboljšavaju prepravljanjem svog izvornog koda — ne samo prompta ili fine-tuning težina. Na OpenClaw benchmarku jedan ciklus MOSS samoevolucije podiže rezultat s 0,25 na 0,61 bez ikakve ljudske intervencije, pokazujući da agenti mogu popraviti routing, hooks i dispatch logiku koju text-only metode ne dotiču.

🟡 🤝 Agenti 23. svibnja 2026. · 3 min čitanja

arXiv:2605.22535: TerminalWorld benchmark mjeri LLM agente na stvarnim Linux terminal zadacima bez simulacije

Editorial ilustracija: terminal prompt s git i bash naredbama i AI agent koji ih izvršava

TerminalWorld je novi benchmark koji evaluira LLM agente na stvarnim bash, git i file operacijama u pravim Linux procesima, bez simulacije. Osmoautorski rad pod vodstvom Zhaoyang Chu i Jiarui Hu postavlja novu ljestvicu za 'computer use' agente i direktno je relevantan za alate poput Claude Code, GitHub Copilot Workspace i Cursor agentic modea.

🟡 🤝 Agenti 23. svibnja 2026. · 3 min čitanja

Anthropic Claude Code v2.1.149 donosi per-category breakdown u /usage i zatvara PowerShell permission bypass

Editorial ilustracija: terminal s usage breakdown grafikonom i security štitom

Anthropic je objavio Claude Code CLI v2.1.149 koji proširuje /usage komandu s breakdown-om troškova po kategorijama (skills, subagents, plugins, per-MCP server). Release zatvara dva sigurnosna propusta: PowerShell permission bypass kroz built-in funkcije i krivu allowlist za git worktree sandbox. Dodan je i enterprise setting allowAllClaudeAiMcps za cloud MCP konektore.

🔧 Hardware (1)

🏥 U praksi (5)

🟡 🏥 U praksi 23. svibnja 2026. · 3 min čitanja

arXiv:2605.22681: CUSP benchmark pokazuje da frontier modeli ne mogu pouzdano predviđati znanstvene proboje

Editorial ilustracija: znanstvena krivulja s točkom prijeloma i AI sustav koji promaši predikciju

CUSP benchmark testira sposobnost AI modela da predviđa znanstvene proboje na bazi od 4.700 događaja. Frontier modeli (GPT-5, Claude Opus 4.7, Gemini 3 Pro) identificiraju plausibilne smjerove istraživanja, ali sustavno pogađaju ishode i timing s prekomjernom sigurnošću. Dodatan pre-cutoff kontekst ne pomaže — limitacija je strukturalna, ne informacijska.

🟡 🏥 U praksi 23. svibnja 2026. · 3 min čitanja

GitHub: Gartner Magic Quadrant 2026 — GitHub Copilot Leader treću godinu zaredom za Enterprise AI Coding Agents

Editorial ilustracija: kvadrant matrica s GitHub Copilot pozicioniranim u Leader sektoru

Gartner je u svojem Magic Quadrant izvještaju za 2026. pozicionirao GitHub kao Leadera u kategoriji Enterprise AI Coding Agents — treću godinu zaredom. GitHub Copilot trenutno koristi 140.000 organizacija širom svijeta, a ocjenjivanje je naglasilo agentic workflowove koji pokrivaju cijeli SDLC od koda do reviewa, sigurnosti i governance, ne samo generiranje koda.

🟢 🏥 U praksi 23. svibnja 2026. · 4 min čitanja

arXiv:2605.22337: Meta-Soft uvodi kompresiju KV cachea kroz composable meta-tokene i naučljive ortogonalne baze

Editorial ilustracija: meta-tokeni koji sažimaju attention cache u ortogonalnu baznu strukturu

Istraživači su predstavili Meta-Soft, novu metodu za dinamičku kompresiju KV cachea u LLM inferenciji. Pristup koristi naučljivu ortogonalnu baznu matricu i selektorski mrežu koji sintetiziraju soft meta-tokene — kompresirana reprezentacija ključnih informacija iz dugog prompta. Attention-flow mehanizam preraspoređuje semantičke informacije iz uklonjenih tokena u zadržane, nadmašujući postojeće KV cache eviction metode.

🟢 🏥 U praksi 23. svibnja 2026. · 4 min čitanja

arXiv:2605.22664: WorkstreamBench testira LLM agente na end-to-end spreadsheet zadacima u financijama i frontier modeli padaju

Editorial ilustracija: Excel spreadsheet s formulama i AI agent koji ih analizira

WorkstreamBench je novi benchmark s 10 autora pod vodstvom Thomsona Yena koji testira LLM agente na realnim Excel i spreadsheet zadacima u financijskoj domeni — fakture, izvještaji, analiza troškova. GPT-4o, Claude i Gemini se uspoređuju i nijedan ne prolazi pouzdano kroz cijeli skup zadataka, što ukazuje na strukturalne nedostatke u trenutnoj agentic infrastrukturi za enterprise financije.

🟢 🏥 U praksi 23. svibnja 2026. · 2 min čitanja

Anthropic Claude Code v2.1.150 — interni infrastrukturni patch bez korisničkih promjena

Editorial ilustracija: Claude Code terminal s verzijskim numeriranjem i internim cogwheel-ovima

Anthropic je u 04:03 UTC subote objavio Claude Code CLI verziju v2.1.150, samo dan nakon v2.1.149. Release sadrži isključivo interna infrastrukturna poboljšanja bez user-facing promjena. Dostupno za Darwin, Linux i Windows na ARM64 i x64 arhitekturama, kao i Linux musl builda.

🛡️ Sigurnost (3)

🔴 🛡️ Sigurnost 23. svibnja 2026. · 3 min čitanja

Anthropic: Project Glasswing pronašao 10.000 visokorizičnih ranjivosti u prvom mjesecu rada s Claude Mythos Preview

Editorial ilustracija: digitalni kompas iznad mreže koda s istaknutim ranjivim segmentima

Anthropic Project Glasswing okuplja oko 50 sigurnosnih partnera koji koriste Claude Mythos Preview za skeniranje kritičnog softvera. U prvih mjesec dana pronađeno je više od 10.000 visokorizičnih i kritičnih ranjivosti, dok su otvoreni open-source skeneri otkrili 6.202 propuste u tisuću projekata uz 90,6 posto stopu istinitih pogodaka.

🟡 🛡️ Sigurnost 23. svibnja 2026. · 3 min čitanja

arXiv:2605.22786: LCGuard štiti dijeljeni KV cache između agenata u multi-agent sustavima od curenja podataka

Editorial ilustracija: granica između dvije agenta zone s kriptografskim štitom oko KV cachea

LCGuard je novi framework za zaštitu od curenja podataka u multi-agent sustavima koji dijele KV cache radi efikasnosti. Rad istraživača iz IBM Researcha i MIT-a pod vodstvom Sadie Asif predstavlja prvi formalni model za 'latent communication guard' pristup, primjenjiv na produkcijske agentic RAG sustave gdje više agenata dijeli kontekst kroz zajedničku memoriju.

🟡 🛡️ Sigurnost 23. svibnja 2026. · 3 min čitanja

GitHub: npm 11.15.0 uvodi staged publishing i tri nova install-time --allow flaga za supply chain hardening

Editorial ilustracija: npm paket u staging odjeljku s ključem i sigurnosnim filterom

GitHub je objavio npm CLI verziju 11.15.0 koja donosi staged publishing — paketi sad zahtijevaju odobrenje maintainera prije nego što postanu dostupni za instalaciju. Uveden je i set od tri nova install-time flaga (--allow-file, --allow-remote, --allow-directory) uz postojeći --allow-git, za granularnu kontrolu izvora dependency-ja u npm install komandi.

✨ Zanimljivosti (1)

← Prethodni dan