🔴 🛡️ Sigurnost

Anthropic: Project Glasswing pronašao 10.000 visokorizičnih ranjivosti u prvom mjesecu rada s Claude Mythos Preview

Editorial ilustracija: digitalni kompas iznad mreže koda s istaknutim ranjivim segmentima

Anthropic Project Glasswing okuplja oko 50 sigurnosnih partnera koji koriste Claude Mythos Preview za skeniranje kritičnog softvera. U prvih mjesec dana pronađeno je više od 10.000 visokorizičnih i kritičnih ranjivosti, dok su otvoreni open-source skeneri otkrili 6.202 propuste u tisuću projekata uz 90,6 posto stopu istinitih pogodaka.

🔴 🤝 Agenti

arXiv:2605.22502: Kompiliranjem agentskih workflowa u LLM težine postiže se near-frontier kvaliteta uz 100 puta nižu cijenu

Editorial ilustracija: workflow čvorovi koji se urušuju u kompaktnu jezgru neuronske mreže

Istraživači su pokazali da se kompleksni agentski workflowi mogu enkodirati direktno u težine manjeg fine-tuned modela umjesto u eksternu orkestraciju poput LangChaina ili LangGraph-a. Pristup postiže near-frontier kvalitetu uz 100 puta nižu cijenu inferencije na tri stvarna scenarija: travel booking, Zoom support i osiguranje, s workflowima od 14 do 55 čvorova.

🔴 🤝 Agenti

arXiv:2605.22794: MOSS pokazuje agente koji se sami unapređuju mijenjajući vlastiti izvorni kod

Editorial ilustracija: AI agent koji prepravlja vlastiti izvorni kod u sandbox petlji

Istraživači su predstavili MOSS, framework za autonomne agente koji se poboljšavaju prepravljanjem svog izvornog koda — ne samo prompta ili fine-tuning težina. Na OpenClaw benchmarku jedan ciklus MOSS samoevolucije podiže rezultat s 0,25 na 0,61 bez ikakve ljudske intervencije, pokazujući da agenti mogu popraviti routing, hooks i dispatch logiku koju text-only metode ne dotiču.

Danas u AI svijetu

🟡 🏥 U praksi 23. svibnja 2026. · 3 min čitanja

arXiv:2605.22681: CUSP benchmark pokazuje da frontier modeli ne mogu pouzdano predviđati znanstvene proboje

Editorial ilustracija: znanstvena krivulja s točkom prijeloma i AI sustav koji promaši predikciju

CUSP benchmark testira sposobnost AI modela da predviđa znanstvene proboje na bazi od 4.700 događaja. Frontier modeli (GPT-5, Claude Opus 4.7, Gemini 3 Pro) identificiraju plausibilne smjerove istraživanja, ali sustavno pogađaju ishode i timing s prekomjernom sigurnošću. Dodatan pre-cutoff kontekst ne pomaže — limitacija je strukturalna, ne informacijska.

🟡 ✨ Zanimljivosti 23. svibnja 2026. · 4 min čitanja

arXiv:2605.22763: AI agent s Lean verifikacijom rješava 9 otvorenih Erdősovih problema i 44 OEIS konjekture

Editorial ilustracija: matematički simboli i Lean tipovi povezani u stablo formalnog dokaza

Tim od 20 istraživača iz DeepMinda i MIT CSAIL-a objavio je prvu large-scale evaluaciju LLM-ova za autonomno generiranje formalnih dokaza u Lean theorem proveru. Agent kombinira LLM generaciju s Lean simboličkom verifikacijom i autonomno rješava 9 od 353 otvorenih Erdősovih problema te dokazuje 44 od 492 OEIS konjektura.

🟡 🛡️ Sigurnost 23. svibnja 2026. · 3 min čitanja

arXiv:2605.22786: LCGuard štiti dijeljeni KV cache između agenata u multi-agent sustavima od curenja podataka

Editorial ilustracija: granica između dvije agenta zone s kriptografskim štitom oko KV cachea

LCGuard je novi framework za zaštitu od curenja podataka u multi-agent sustavima koji dijele KV cache radi efikasnosti. Rad istraživača iz IBM Researcha i MIT-a pod vodstvom Sadie Asif predstavlja prvi formalni model za 'latent communication guard' pristup, primjenjiv na produkcijske agentic RAG sustave gdje više agenata dijeli kontekst kroz zajedničku memoriju.

🟡 🤝 Agenti 23. svibnja 2026. · 3 min čitanja

arXiv:2605.22535: TerminalWorld benchmark mjeri LLM agente na stvarnim Linux terminal zadacima bez simulacije

Editorial ilustracija: terminal prompt s git i bash naredbama i AI agent koji ih izvršava

TerminalWorld je novi benchmark koji evaluira LLM agente na stvarnim bash, git i file operacijama u pravim Linux procesima, bez simulacije. Osmoautorski rad pod vodstvom Zhaoyang Chu i Jiarui Hu postavlja novu ljestvicu za 'computer use' agente i direktno je relevantan za alate poput Claude Code, GitHub Copilot Workspace i Cursor agentic modea.

🟡 🤝 Agenti 23. svibnja 2026. · 3 min čitanja

Anthropic Claude Code v2.1.149 donosi per-category breakdown u /usage i zatvara PowerShell permission bypass

Editorial ilustracija: terminal s usage breakdown grafikonom i security štitom

Anthropic je objavio Claude Code CLI v2.1.149 koji proširuje /usage komandu s breakdown-om troškova po kategorijama (skills, subagents, plugins, per-MCP server). Release zatvara dva sigurnosna propusta: PowerShell permission bypass kroz built-in funkcije i krivu allowlist za git worktree sandbox. Dodan je i enterprise setting allowAllClaudeAiMcps za cloud MCP konektore.

🟡 🏥 U praksi 23. svibnja 2026. · 3 min čitanja

GitHub: Gartner Magic Quadrant 2026 — GitHub Copilot Leader treću godinu zaredom za Enterprise AI Coding Agents

Editorial ilustracija: kvadrant matrica s GitHub Copilot pozicioniranim u Leader sektoru

Gartner je u svojem Magic Quadrant izvještaju za 2026. pozicionirao GitHub kao Leadera u kategoriji Enterprise AI Coding Agents — treću godinu zaredom. GitHub Copilot trenutno koristi 140.000 organizacija širom svijeta, a ocjenjivanje je naglasilo agentic workflowove koji pokrivaju cijeli SDLC od koda do reviewa, sigurnosti i governance, ne samo generiranje koda.

🟡 🛡️ Sigurnost 23. svibnja 2026. · 3 min čitanja

GitHub: npm 11.15.0 uvodi staged publishing i tri nova install-time --allow flaga za supply chain hardening

Editorial ilustracija: npm paket u staging odjeljku s ključem i sigurnosnim filterom

GitHub je objavio npm CLI verziju 11.15.0 koja donosi staged publishing — paketi sad zahtijevaju odobrenje maintainera prije nego što postanu dostupni za instalaciju. Uveden je i set od tri nova install-time flaga (--allow-file, --allow-remote, --allow-directory) uz postojeći --allow-git, za granularnu kontrolu izvora dependency-ja u npm install komandi.

🟢 🔧 Hardware 23. svibnja 2026. · 4 min čitanja

AMD: Gluon block-level model omogućuje GEMM kernele s 5.255 TFLOPS MXFP4 na Instinct MI355

Editorial ilustracija: GPU akcelerator s rasporedom matričnih jedinica i pipeline tokova

AMD ROCm tim objavio je tutorial za pisanje high-performance GEMM kernela u Gluon programskom modelu na MI355 GPU-u. Optimirani FP16 kernel postiže 1.489 TFLOPS uz 98,75 posto MFMA efikasnosti, dok proširenja na BF8 (3.257 TFLOPS) i MXFP4 (5.255 TFLOPS) demonstriraju relevantnost za moderne AI workloade. Tutorial uključuje workgroup remapping i swizzle koji reducira L2 cache misses s 5,3 M na 4,1 M.

🟢 🏥 U praksi 23. svibnja 2026. · 4 min čitanja

arXiv:2605.22337: Meta-Soft uvodi kompresiju KV cachea kroz composable meta-tokene i naučljive ortogonalne baze

Editorial ilustracija: meta-tokeni koji sažimaju attention cache u ortogonalnu baznu strukturu

Istraživači su predstavili Meta-Soft, novu metodu za dinamičku kompresiju KV cachea u LLM inferenciji. Pristup koristi naučljivu ortogonalnu baznu matricu i selektorski mrežu koji sintetiziraju soft meta-tokene — kompresirana reprezentacija ključnih informacija iz dugog prompta. Attention-flow mehanizam preraspoređuje semantičke informacije iz uklonjenih tokena u zadržane, nadmašujući postojeće KV cache eviction metode.

🟢 🏥 U praksi 23. svibnja 2026. · 4 min čitanja

arXiv:2605.22664: WorkstreamBench testira LLM agente na end-to-end spreadsheet zadacima u financijama i frontier modeli padaju

Editorial ilustracija: Excel spreadsheet s formulama i AI agent koji ih analizira

WorkstreamBench je novi benchmark s 10 autora pod vodstvom Thomsona Yena koji testira LLM agente na realnim Excel i spreadsheet zadacima u financijskoj domeni — fakture, izvještaji, analiza troškova. GPT-4o, Claude i Gemini se uspoređuju i nijedan ne prolazi pouzdano kroz cijeli skup zadataka, što ukazuje na strukturalne nedostatke u trenutnoj agentic infrastrukturi za enterprise financije.

🟢 🏥 U praksi 23. svibnja 2026. · 2 min čitanja

Anthropic Claude Code v2.1.150 — interni infrastrukturni patch bez korisničkih promjena

Editorial ilustracija: Claude Code terminal s verzijskim numeriranjem i internim cogwheel-ovima

Anthropic je u 04:03 UTC subote objavio Claude Code CLI verziju v2.1.150, samo dan nakon v2.1.149. Release sadrži isključivo interna infrastrukturna poboljšanja bez user-facing promjena. Dostupno za Darwin, Linux i Windows na ARM64 i x64 arhitekturama, kao i Linux musl builda.

🟢 📦 Open Source 23. svibnja 2026. · 4 min čitanja

Kedro: verzija 1.2.0 donosi @experimental dekorator i LangGraph agentic starter za GenAI pipeline-e

Editorial ilustracija: pipeline čvorovi s LangGraph orkestracijskim mostom i Mermaid dijagramom

Linux Foundation AI projekt Kedro objavio je verziju 1.2.0 zajedno s Kedro-Viz 12.3.0. Novi @experimental dekorator omogućuje označavanje API-ja u razvoju, a starter projekt support-agent-langgraph demonstrira integraciju s LangGraph orkestracijom i Langfuse/Opik prompt management alatima. Kedro-Viz dobiva Mermaid dijagrame i node preview extensibility za bolji pipeline debugging.

🔴 ⚖️ Regulacija 22. svibnja 2026. · 3 min čitanja

UK AI Safety Institute: Nadzor nad naprednim AI sustavima postaje sve teži — 20+ putanja degradacije identificirano

Editorial illustration: Nadzor nad naprednim AI sustavima postaje sve teži — 20+ putanja degradacije identificirano

UK AI Safety Institute (AISI) je 21. svibnja 2026. objavio izvještaj koji analizira budućnost nadzora nad naprednim AI sustavima na temelju 25 ekspertnih intervjua iz industrije, vlada i akademije. Glavni nalaz: postojeći nadzor počiva na temeljima koji će vjerojatno erodirati. Identificirano je 20+ različitih putanja degradacije nadzornih mehanizama, s posebnim naglaskom na latentno reasoning, capability masking, vanjske AI akcije i AI-to-AI komunikaciju.

🔴 🤝 Agenti 22. svibnja 2026. · 3 min čitanja

Microsoft Research: MagenticLite + Fara1.5 (4B/9B/27B) — agentic AI optimiziran za male modele postiže SOTA

Editorial illustration: MagenticLite + Fara1.5 (4B/9B/27B) — agentic AI optimiziran za male modele postiže SOTA

Microsoft Research je 21. svibnja 2026. objavio trojku za agentic AI s malim modelima: MagenticLite (browser i filesystem UI aplikacija), MagenticBrain (14B orchestration model fine-tuned iz Qwen 3 14B) i Fara1.5 (computer-use model u 4B, 9B i 27B varijantama). Fara1.5-27B dostiže preko 90% SOTA na Online-Mind2Web benchmarku (300 web zadataka), gotovo udvostručujući performanse prethodnog Fara-7B. Cilj je pokazati da agentic AI ne zahtijeva goleme modele — samo dobro koodesignirane alate i harness.

🟡 🏥 U praksi 22. svibnja 2026. · 3 min čitanja

arXiv:2605.21427: PALS — power-aware LLM serving za MoE modele postiže +26.3% energetske efikasnosti i 4-7× manje QoS povreda

Editorial illustration: 2605.21427: PALS — power-aware LLM serving za MoE modele postiže +26.3% energetske efikasnosti i 4-7× manje QoS pov

Istraživači su 21. svibnja 2026. na arXiv preprint serveru objavili PALS — runtime sustav koji integrira GPU power kontrolu direktno u LLM serving za Mixture-of-Experts modele. PALS koristi lagane offline power-performance modele i feedback controller koji dinamički optimizira konfiguracije po throughput ciljevima. Postiže 26.3% poboljšanje energetske efikasnosti i 4-7× redukciju QoS povreda pod power ograničenjima, integrira se u vLLM bez izmjene API-ja ili retreininga modela. Adresira sve veću operativnu boljku data centara — energetska potrošnja GPU clustera koja postaje dominantno ograničenje rasta.

🟡 🤖 Modeli 22. svibnja 2026. · 3 min čitanja

arXiv:2605.21006: Off-the-shelf persona vektori postižu 68-98% učinkovitosti targetiranog sycophancy steeringa u LLM modelima

Editorial illustration: 2605.21006: Off-the-shelf persona vektori postižu 68-98% učinkovitosti targetiranog sycophancy steeringa u LLM mode

Istraživači su 21. svibnja 2026. na arXivu objavili rad pod nazivom 'Playing Devil's Advocate' koji pokazuje da postojeći persona vektori razvijeni za roleplay zadatke mogu reducirati sycophancy (sklonost modela slaganju s korisnikom čak i kad griješi) na 68-98% učinkovitosti specijaliziranog Contrastive Activation Addition (CAA) pristupa — bez treniranja na sycophancy-specifičnim podacima. Geometrijska analiza otkriva da je sycophancy svojstvo na razini persone, a ne jedan vodljiv smjer u aktivacijskom prostoru, što otvara puno lakše puteve za alignment.

🟡 🤝 Agenti 22. svibnja 2026. · 3 min čitanja

AWS: Nova Act dobio HIPAA-eligibility — agentska automatizacija ePHI za zdravstvene radne tokove

Editorial illustration: Nova Act dobio HIPAA-eligibility — agentska automatizacija ePHI za zdravstvene radne tokove

AWS je 21. svibnja 2026. najavio da je Amazon Nova Act, agentski AI servis za automatizaciju browser i UI workflowa, dobio HIPAA-eligibility status. Zdravstvene organizacije sada mogu koristiti Nova Act za rad sa zaštićenim zdravstvenim informacijama (ePHI) — autoriziranu predautorizaciju, verifikaciju osiguranja i slanje referrala kroz web portale dobavljača. Servis se integrira s Amazon Bedrock AgentCore i Strand Agents frameworkom, zahtijeva potpisani BAA ugovor i AWS KMS enkripciju, te trenutno radi samo u US East (N. Virginia) regiji.

🟡 🤝 Agenti 22. svibnja 2026. · 2 min čitanja

Anthropic: Claude Code v2.1.147 uvodi Workflow tool za deterministički multi-agent orchestration

Editorial illustration: Claude Code v2.1.147 uvodi Workflow tool za deterministički multi-agent orchestration

Anthropic je 21. svibnja 2026. u 20:39 UTC izdao Claude Code v2.1.147, novu CLI verziju koja uvodi Workflow tool — prvi deterministički multi-agent orchestration mehanizam u Claude Code ekosustavu. Tool je inicijalno onemogućen po defaultu i aktivira se preko CLAUDE_CODE_WORKFLOWS=1 environment varijable. Ista verzija preimenuje postojeću /simplify komandu u /code-review s razinama napora (high/medium/low) te dodaje sandbox hardening protiv prototype-pollution i thenable-based escape napada.

Ranije vijesti

četvrtak, 21. svibnja 2026.

12 vijesti →
🔴 ⚖️ Regulacija 21. svibnja 2026. · 2 min čitanja

EU AI Office: nacrt smjernica za klasifikaciju visokorizičnih AI sustava

Editorial illustration: EU AI Office otvorio konzultaciju o klasifikaciji visokorizičnih AI sustava prema AI Aktu

Europska komisija je 13. svibnja 2026. otvorila ciljanu javnu konzultaciju o nacrtu smjernica za klasifikaciju AI sustava kao visokorizičnih prema EU AI Aktu. Konzultacija se zatvara 22. svibnja u 18 sati po srednjoeuropskom vremenu, a smjernice će izravno odrediti koje će organizacije u zdravstvu, obrazovanju, kritičnoj infrastrukturi i HR procesima morati ispuniti najstrože regulatorne zahtjeve.

🔴 🛡️ Sigurnost 21. svibnja 2026. · 2 min čitanja

GitHub: trovana VS Code ekstenzija probila ~3.800 internih repozitorija

Editorial illustration: GitHub interni repozitoriji kompromitirani preko trovane VS Code ekstenzije s endpointa jednog zaposlenika

GitHub je 18. svibnja 2026. otkrio da je napadač pristupio s otprilike 3.800 internih GitHub repozitorija putem trovane VS Code ekstenzije treće strane koja je zarazila uređaj jednog zaposlenika. Istraga je u tijeku, a tvrtka navodi da nema dokaza o kompromitaciji podataka korisnika izvan internih repozitorija; ovo je drugi veliki incident gdje IDE ekstenzije postaju vektor napada na enterprise developer infrastrukturu.

🔴 🤖 Modeli 21. svibnja 2026. · 2 min čitanja

OpenAI: AI model opovrgnuo 80-godišnju konjekturu u diskretnoj geometriji

Editorial illustration: OpenAI AI model opovrgnuo 80-godišnju konjekturu o jediničnim udaljenostima u diskretnoj geometriji

OpenAI je objavio da je njegov AI model riješio otvoreni problem jedinične udaljenosti (unit distance problem) — središnju konjekturu diskretne geometrije postavljenu prije više od 80 godina. Tvrtka opisuje rezultat kao prekretnicu u AI-vođenoj matematici jer model nije samo provjerio postojeću tezu, nego ju je opovrgnuo originalnom konstrukcijom protuprimjera.

🟡 🔧 Hardware 21. svibnja 2026. · 2 min čitanja

AMD: ROCm 7.13 donosi MI350P GPU, multi-VF virtualizaciju i TheRock pakiranje

Editorial illustration: AMD ROCm 7.13 s MI350P GPU, multi-VF virtualizacijom i TheRock modularnim pakiranjem

AMD je 20. svibnja 2026. objavio ROCm 7.13 — novu verziju open-source AI compute stack-a koja donosi podršku za MI350P GPU, virtualizaciju do 8 izoliranih vGPU-a po MI300X akceleratoru, open-source ROCprof Trace decoder za transparentnu analizu performansi i modularno TheRock pakiranje s domain-specific SDK-ovima. Release validiran je na Ubuntu 26.04 i RHEL 9.6 te uključuje VMware ESXi 9.1 podršku za MI350X i MI355X.

srijeda, 20. svibnja 2026.

18 vijesti →
🔴 🤖 Modeli 20. svibnja 2026. · 3 min čitanja

Google: Gemini 3.5 Flash i Pro — najbrži frontier modeli do sada

Editorial illustration: Google je na Google I/O 2026 predstavio Gemini 3.5 Flash i Pro — frontier modele koji su 4× brži od

Google je na Google I/O 2026 predstavio Gemini 3.5 Flash i Pro — frontier modele koji su 4× brži od konkurencije, s posebnim naglaskom na agentske zadatke, novu platformu Antigravity 2.0 za razvojne programere i Gemini Spark, osobnog AI agenta dostupnog 24/7.

🔴 🤖 Modeli 20. svibnja 2026. · 3 min čitanja

Google: Gemini Omni Flash donosi nativnu video generaciju iz mješovitih inputa

Editorial illustration: Google je na I/O 2026 predstavio Gemini Omni Flash — novi multimodalni model koji generira i uređuje

Google je na I/O 2026 predstavio Gemini Omni Flash — novi multimodalni model koji generira i uređuje video iz kombinacije slika, zvuka, videa i teksta. Dostupan odmah na YouTube Shortsima, uz obavezni SynthID digitalni vodeni žig na svakom generiranom isječku.

🟡 🤝 Agenti 20. svibnja 2026. · 2 min čitanja

Anthropic Claude Code: Scripting živih sesija i sigurnosni popravci u v2.1.145

Editorial illustration:

Claude Code v2.1.145 donosi JSON ispis živih sesija za skriptiranje, proširene OTEL trace atribute za praćenje agenata te popravke sigurnosnog propusta pri odobravanju bash naredbi. Ažuriranje je dostupno putem npm install -g @anthropic-ai/claude-code.

🟡 🤝 Agenti 20. svibnja 2026. · 2 min čitanja

Anthropic: Claude za 276.000 KPMG zaposlenika u 138 zemalja

Editorial illustration: Anthropic i KPMG sklopili su stratešku globalnu alijansu kojom Claude dobiva pristup svim zaposlenic

Anthropic i KPMG sklopili su stratešku globalnu alijansu kojom Claude dobiva pristup svim zaposlenicima jedne od četiri najveće revizorske tvrtke na svijetu. Claude se ugrađuje u KPMG-ov Digital Gateway, a KPMG postaje Anthropicov preferred partner za sektor privatnog kapitala.

utorak, 19. svibnja 2026.

17 vijesti →
🔴 🤝 Agenti 19. svibnja 2026. · 3 min čitanja

Anthropic: Akvizicija Stainlessa integira MCP server tooling i SDK razvoj direktno u Claude platformu

Editorial illustration: Anthropic je 18. svibnja 2026. preuzeo Stainless, tvrtku osnovanu 2022. koja stoji iza svih službeni

Anthropic je 18. svibnja 2026. preuzeo Stainless, tvrtku osnovanu 2022. koja stoji iza svih službenih Anthropic SDK-ova i MCP server toolinga. Stainless gradi SDK-ove za stotine tvrtki, a akvizicija cilja boljoj integraciji Claude agenata s eksternim podacima i alatima.

🔴 🤝 Agenti 19. svibnja 2026. · 3 min čitanja

Anthropic: MCP Tunnels, vlastiti sandboxevi i automatski file-spill za agente

Editorial illustration: Anthropic je u Claude API platformi uveo tri važna ažuriranja za graditelje agenata: MCP Tunnels za

Anthropic je u Claude API platformi uveo tri važna ažuriranja za graditelje agenata: MCP Tunnels za spajanje na privatne mreže bez izlaganja internetu, self-hosted sandboxeve kao alternativu Anthropicovoj infrastrukturi i automatski file-spill za tool outpute koji premašuju 100K tokena.

🔴 🤖 Modeli 19. svibnja 2026. · 3 min čitanja

arXiv:2605.15514: RoPE matematički ne razlikuje pozicije ni tokene u dugim kontekstima — teorijski dokaz fundamentalnog ograničenja

Editorial illustration: arXiv paper 2605.15514 donosi matematički dokaz da Rotary Positional Embeddings (RoPE), pozicijski m

arXiv paper 2605.15514 donosi matematički dokaz da Rotary Positional Embeddings (RoPE), pozicijski mehanizam koji koriste gotovo svi moderni veliki jezični modeli uključujući Llamu, Mistral, Qwen i GPT-NeoX, gubi sposobnost razlikovanja pozicija i tokena u dugačkim kontekstima. Autori zaključuju da su potrebni fundamentalno novi arhitekturni mehanizmi.

🟡 🤝 Agenti 19. svibnja 2026. · 2 min čitanja

arXiv:2605.18661: AI za automatsko istraživanje — Roadmap i korisnički vodič

Editorial illustration: arXiv paper 2605.18661 istraživača s NUS-a i NTU-a analizira sustave koji autonomno generiraju istra

arXiv paper 2605.18661 istraživača s NUS-a i NTU-a analizira sustave koji autonomno generiraju istraživačke papere za svega 15 dolara. Ključni nalaz: frontier LLM-ovi fabriciraju rezultate i pouzdano ne ocjenjuju novost ideja. Sveobuhvatni roadmap definira granice između pouzdane asistencije i nesigurne AI autonomije.

ponedjeljak, 18. svibnja 2026.

11 vijesti →
🟡 🤝 Agenti 18. svibnja 2026. · 4 min čitanja

arXiv:2605.16217 Argus: evidence assembly arhitektura za deep research agente postiže +12,7pp s 8 paralelnih searchera

Editorial illustration: knowledge graph s evidence node-ovima i parallel searcher agentima oko centralnog navigator-a.

Argus je novi arXiv paper objavljen 15. svibnja 2026. autora Zhen Zhang, Liangcai Su, Zhuo Chen i kolega koji predstavlja evidence assembly framework za deep research agente. Sustav koristi dual-agent arhitekturu — Searcher (ReAct-style traces) + Navigator (shared evidence graph + RL synthesis) — i postiže +5,5pp s jednim Searcher-om, +12,7pp s 8 paralelnih, te 86,2 score na BrowseComp s 64 paralelnih bez prekoračenja konteksta.

🟡 📦 Open Source 18. svibnja 2026. · 3 min čitanja

arXiv:2605.15041 CAST framework: case-based calibration LLM tool use postiže +5,85pp BFCLv2 i -26 % reasoning length

Editorial illustration: LLM agent s case library prikazom i tool call validation indicators.

CAST je novi arXiv paper objavljen 14. svibnja 2026. autora Renning Pang, Tian Lan, Leyuan Liu, Piao Tong, Sheng Cao i Xiaosong Zhang koji uvodi case-based calibration framework za LLM tool use. Pristup tretira historical execution trajectories kao structured information za reinforcement learning — postiže do +5,85 postotnih bodova execution accuracy improvement nad BFCLv2 baseline-om i 26 % redukciju average reasoning length-a.

🟡 🛡️ Sigurnost 18. svibnja 2026. · 4 min čitanja

arXiv:2605.15338 Sleeper Memory Poisoning: 99,8 % attack success rate na GPT-5.5 kroz perzistentnu memoriju LLM agenata

Editorial illustration: LLM agent memory store s dormantnim adversarial token-ima i wake-up trigger ikone.

Hidden in Memory je novi arXiv paper objavljen 14. svibnja 2026. autora Sidharth Pulipaka, Stanislau Hlebik, Leonidas Raghav, Sahar Abdelnabi, Vyas Raina, Ivaxi Sheth i Mario Fritz koji predstavlja delayed-execution attack na stateful LLM agente. Adversarial content u externom kontekstu (dokumenti, webpage) corruptira agentovu perzistentnu memoriju — 99,8 % uspjeh na GPT-5.5 i 95 % na Kimi-K2.6, s 60-89 % uspjeha pretvaranja poisoned memory u attacker-intended akciju.

🟡 🤖 Modeli 18. svibnja 2026. · 3 min čitanja

GitHub Copilot: GPT-5.3-Codex postaje base model za Business i Enterprise s 12-mjesečnim LTS jamstvom

Editorial illustration: GitHub Copilot logo s GPT-5.3-Codex badge i LTS support stamp.

GitHub je 17. svibnja 2026. objavio da GPT-5.3-Codex zamjenjuje GPT-4.1 kao base model za Copilot Business i Enterprise. Promjena se odnosi samo na enterprise tier (ne Copilot Pro, Pro+ ili Free). GPT-5.3-Codex je prvi LTS (long-term support) model — zajamčena dostupnost 12 mjeseci od 5. veljače 2026. do 4. veljače 2027. Pricing: 1× premium request multiplier; GPT-4.1 ostaje force-enabled na 0× multiplier do deprecation-a 1. lipnja 2026.

subota, 16. svibnja 2026.

15 vijesti →
🟡 🤝 Agenti 16. svibnja 2026. · 2 min čitanja

Anthropic: Claude Code v2.1.143 — 5. patch ovaj tjedan, plugin dependency enforcement i projected context cost u marketplaceu

Editorial illustration: Claude Code plugin marketplace s token cost ikonama i dependency grafom.

Claude Code v2.1.143 je nova verzija Anthropic CLI agenta objavljena 15. svibnja 2026. Peti patch ovaj tjedan nakon v2.1.139, v2.1.140, v2.1.141 i v2.1.142. Donosi plugin dependency enforcement s disable-chain hintovima, projected context cost prikaz u plugin marketplaceu (per-turn i per-invocation token procjene), novi worktree.bgIsolation setting, PowerShell -ExecutionPolicy Bypass auto-flag, i background sesije koje čuvaju model/effort kroz idle wake.

🟡 🛡️ Sigurnost 16. svibnja 2026. · 3 min čitanja

arXiv:2605.14912 Sycophantic Consensus to Pluralistic Repair: AI alignment mora prikazati neslaganje, ne konsenzus

Editorial illustration: AI razgovor s dijaloškim mjehurima koji prikazuju neslaganje i različitu perspektivu.

From Sycophantic Consensus to Pluralistic Repair je novi alignment paper autora Varad Vishwarupe, Nigel Shadbolt i Marina Jirotka objavljen 15. svibnja 2026. na arXivu. Autori tvrde da je trenutni pluralistic alignment fundamentalno pogrešno fokusiran na preference aggregation umjesto na surface disagreement. Predlažu Pluralistic Repair Score (PRS) metrike testiranu na Claude Sonnet 4.5 (N=198) i GPT-4o (N=100) — oba modela pokazala agreement-following behavior s low repair quality.

🟡 🤖 Modeli 16. svibnja 2026. · 3 min čitanja

Black Forest Labs: FLUX Outpainting proširuje slike u bilo kojem smjeru uz očuvanje svjetla, teksture i kompozicije

Editorial illustration: slika koja se širi kroz okvir s očuvanim svjetlom i teksturom.

FLUX Outpainting je novi Black Forest Labs image generation feature objavljen 14. svibnja 2026. koji proširuje slike u bilo kojem smjeru kroz purpose-built expansion endpoint. Korisnik specificira target canvas dimensions i placement coordinates — model očuvava lighting, texture, depth i composition kroz extension regije bez tekstualnih prompts. Do 4MP output, dostupno preko BFL API-ja, public demo na flux-tools.bfl.ai/outpainting.

🟡 🤝 Agenti 16. svibnja 2026. · 3 min čitanja

GitHub: Accessibility Agent pregledao 3.535 PR-ova s 68 % resolution rate, otkriva LLM bias prema accessibility antipatternima

Editorial illustration: accessibility ikone (screen reader, keyboard) sa GitHub PR review prikazom.

GitHub Accessibility Agent je nova general-purpose accessibility automation case study objavljena 15. svibnja 2026. Agent je pregledao 3.535 pull requestova s 68 % resolution rate i otkrio značajan bias: LLM-ovi imaju unfortunate tendenciju proizvodnje accessibility antipatterns jer su trenirani na desetljećima inaccessible koda. GitHub koristi sequential reviewer+implementer arhitekturu (dvotijerni model) umjesto paralelnih sub-agenata — reduciralo token consumption i poboljšalo accuracy.