Četvrtak, 14. svibnja 2026.

15 vijesti — 🟡 10 važno , 🟢 5 zanimljivo

🤖 Modeli (3)

🟡 🤖 Modeli 14. svibnja 2026. · 2 min čitanja

arXiv:2605.13301 SU-01: 30B model dostiže gold-medal razinu na IMO 2025, USAMO 2026 i IPhO kroz tri-fazni trening

Editorial illustration: medaljska postolja s matematičkim formulama i AI reasoning stablima.

SU-01 je nova metodologija reasoning training-a objavljena 14. svibnja 2026. na arXivu (Yafu Li i 27 koautora, korespondent Runzhe Zhan). 30B parameter A3B backbone dostiže gold-medal performance na International Mathematical Olympiad 2025, USAMO 2026 i International Physics Olympiad 2024-2025 kroz tri sekvencijalne faze: reverse-perplexity curriculum SFT na 340K trajektorija, two-stage RL i test-time scaling. Reasoning lanci dosežu 100K+ tokena.

🟢 🤖 Modeli 14. svibnja 2026. · 2 min čitanja

Allen Institute: AIMIP benchmark — AI klimatski modeli 2× bolji na povijesti, ali ne generaliziraju na dugoročno zagrijavanje

Editorial illustration: klimatske vremenske grafe s AI model linijama vs povijesni podaci.

AIMIP (AI Model Intercomparison Project) je novi community benchmark za AI vremenske i klimatske modele objavljen 13. svibnja 2026. od strane Allen Institute uz NVIDIA, Google Research, University of Washington, University of Maryland i ArchesWeather grupu. Phase 1 evaluacija osam AI model simulacija pokazala je dvostruko smanjenje greške na povijesnim podacima — ali također ozbiljnu nesposobnost generalizacije na dugoročne warming trendove.

🟢 🤖 Modeli 14. svibnja 2026. · 2 min čitanja

Microsoft Research GridSFM: foundation model rješava AC optimal power flow 100× brže od DC aproksimacije

Editorial illustration: elektroenergetska mreža s AI foundation modelom i optimizacijskim grafom.

GridSFM je novi Microsoft Research small foundation model za elektroenergetske mreže objavljen 13. svibnja 2026. Aproksimira AC optimal power flow u milisekundama na mrežama od 500 do 80.000 čvorova, 100× brže od DC aproksimacije i 1.000× brže od full AC solvera. Median cost gap je 2,23%, feasibility detekcija postiže 94,5%/96,1%, a model donosi potencijalne uštede od $20 milijardi godišnje u congestion troškovima.

📦 Open Source (2)

🟡 📦 Open Source 14. svibnja 2026. · 2 min čitanja

LangChain: LangSmith Engine automatizira agent debugging — error clustering, root cause i PR + evaluator preporuke

Editorial illustration: agent trace klasteri s root cause analitikom i PR ikonama.

LangSmith Engine je nova LangChain platforma objavljena 13. svibnja 2026. koja automatizira production feedback loop za AI agente. Engine analizira trace podatke iz produkcijskih runova, klastrira greške po pattern-u, dijagnosticira root cause u kodu i generira konkretne pull request prijedloge plus evaluator definicije. Cilj je pomak s manualnog debugginga prema continuous automated improvement-u.

🟡 📦 Open Source 14. svibnja 2026. · 2 min čitanja

PyTorch: verzija 2.12 donosi device-agnostic torch.accelerator.Graph, MX kvantizaciju i 100× brži linalg.eigh

PyTorch 2.12 je nova produkcijska verzija PyTorch framework-a objavljena 13. svibnja 2026. s 2.926 commitova i 457 contributora. Glavni featurei: torch.accelerator.Graph device-agnostic API za CUDA, XPU i out-of-tree backends, torch.export podrška za Microscaling MX kvantizaciju (MXFP4/6/8), linalg.eigh do 100× brži na CUDA preko cuSolver, te torch.cond unutar CUDA Graphs. TorchScript je formalno uklonjen.

🤝 Agenti (4)

🟡 🤝 Agenti 14. svibnja 2026. · 2 min čitanja

Amazon Nova Sonic + WebRTC: real-time voice agenti s Kinesis Video Streams i async tool callingom za RAG/MCP

Editorial illustration: voice agent s WebRTC tokom i tool calling strelicama prema cloud sustavima.

Amazon Nova Sonic + WebRTC integracija je nova AWS arhitektura objavljena 13. svibnja 2026. za real-time voice agentne aplikacije. Speech-to-speech event procesor orkestrira media i text data eventove kroz Kinesis Video Streams WebRTC signaling, dok server-side VAD smanjuje audio tokene. Nova Sonic podržava async tool calling prema MCP serverima, Strands agentima i RAG sustavima — IoT i connected vehicle scenariji su prvi demonstracije.

🟡 🤝 Agenti 14. svibnja 2026. · 2 min čitanja

Anthropic: Claude Code v2.1.141 dodaje terminalSequence hook, Bedrock Haiku fix i Summarize up to here rewind opciju

Editorial illustration: Claude Code terminal sa novim hook ikonama i rewind kontrolama.

Claude Code v2.1.141 je nova verzija Anthropic CLI agenta objavljena 13. svibnja 2026. Treća patch verzija ovaj tjedan dodaje terminalSequence polje za hook JSON output, CLAUDE_CODE_PLUGIN_PREFER_HTTPS i ANTHROPIC_WORKSPACE_ID env varijable, claude agents --cwd path scoping te novu Rewind menu opciju Summarize up to here za kompresiju starog konteksta. Popravlja Bedrock/Vertex Haiku model ID race i daemon status na Windows-u.

🟡 🤝 Agenti 14. svibnja 2026. · 2 min čitanja

LangChain: Managed Deep Agents — hosted runtime u LangSmithu s durable execution i memory layerom

Editorial illustration: hosted agent runtime s memory i tool slojevima u cloud okruženju.

Managed Deep Agents je novi LangChain hosted agent runtime objavljen 13. svibnja 2026. u private beti unutar LangSmith platforme. Servis pruža durable execution, persistent memory, integrirano tooling i comprehensive observability — sve infrastrukturne komponente potrebne za produkcijske deep agente. Agent definicija ostaje u repozitoriju kroz standardne AGENTS.md i tools.json datoteke.

🟡 🤝 Agenti 14. svibnja 2026. · 2 min čitanja

OpenAI: Codex sandbox za Windows uvodi kontroliran filesystem i mrežna ograničenja za autonomne agente

Editorial illustration: Codex terminal s sigurnosnim slojevima oko filesystem i network pristupa.

Codex Windows Sandbox je nova OpenAI sigurnosna arhitektura objavljena 13. svibnja 2026. koja Codex agentu omogućuje sigurno izvršavanje na Windows operativnom sustavu. Sandbox uvodi kontroliran pristup filesystemu i mrežna ograničenja kako bi enable safe, efficient coding agents — Codex sad postaje cross-platform alat dostupan i Windows korisnicima, ne samo macOS/Linux developerima.

🏥 U praksi (4)

🟡 🏥 U praksi 14. svibnja 2026. · 2 min čitanja

Perplexity: finance_search Agent API tool vraća OHLCV, bilance, transkripte i analitičarske procjene u jednom pozivu

Editorial illustration: financial data dashboard s OHLCV grafom i AI agent strelicama.

Perplexity finance_search je novi Agent API tool objavljen u svibnju 2026. koji vraća strukturirane financijske podatke za public companies — near-real-time cijene, OHLCV ranges, pre-market i after-hours podatke, income statements, balance sheets, cash flow, earnings call transkripte, SEC filings, analitičarske procjene i ETF konstituente. Model sam odlučuje koja polja fetchati na temelju prompta.

🟢 🏥 U praksi 14. svibnja 2026. · 2 min čitanja

AWS: Pulse AI + Bedrock pipeline fine-tunira Nova Micro za financijske dokumente — 1.000 dokumenata u 3 sata

Editorial illustration: financijski dokumenti s automatiziranim ekstrakcijskim pipeline-om i strukturiranim podacima.

AWS Pulse AI + Amazon Bedrock financijski document processing je novi enterprise pipeline blueprint objavljen 13. svibnja 2026. Kombinira Pulse AI ekstrakciju iz kompleksnih financijskih dokumenata (SEC filings, balance sheets, audit materials) s fine-tuningom Amazon Nova Micro modela. Batch od 1.000 dokumenata koji je prije zahtijevao multi-day turnaround procesirao se u manje od tri sata, a fine-tuned model dosegao 100% check data extraction vs 50% baseline.

🟢 🏥 U praksi 14. svibnja 2026. · 2 min čitanja

CNCF: KubeStellar AI agenti postižu 81 % PR acceptance kroz 91 % test coverage i 63 CI/CD workflow-a

Editorial illustration: Kubernetes klaster s AI agent ikonama i CI/CD pipeline strelicama.

KubeStellar AI Agents je nova case study CNCF blog post Andy Andersona, Chief Maintainera KubeStellar Console-a, objavljen 14. svibnja 2026. Multi-cluster Kubernetes dashboard kroz dva paralelna AI coding agenta postigao 81 % PR acceptance kroz 82 dana. Infrastruktura: 63 CI/CD workflow-a, 32 nightly test suites, 91 % coverage kroz 12 shardova, bug-to-merge ~30 min. Anderson definira pet razina AI codebase zrelosti.

🟢 🏥 U praksi 14. svibnja 2026. · 2 min čitanja

GitHub: Copilot Cloud Agent REST API otvoren za fan-out refactoringa, repo setup i tjednu release pripremu

Editorial illustration: GitHub Actions workflow s autonomnim agent ikonama i REST API endpointom.

GitHub Copilot Cloud Agent REST API je novi developer endpoint objavljen 13. svibnja 2026. u public preview-u koji omogućuje programatsko pokretanje autonomnih Copilot taskova. Tri primarna use case-a: code refactoring/migration fan-out kroz mnogo repozitorija, one-click repository inicijalizacija iz developer portala i automatsko pripremanje tjednog release-a s release notes. Dostupno Copilot Business i Enterprise pretplatnicima.

🛡️ Sigurnost (2)

🟡 🛡️ Sigurnost 14. svibnja 2026. · 2 min čitanja

arXiv:2605.13825 History Anchors: jedna instrukcija povećava unsafe odluke u 17 frontier LLM-ova na 91-98%

Editorial illustration: trajectory linija sa safety oznakama koje se savijaju nakon history anchor signala.

History Anchors je nova safety paper objavljena 14. svibnja 2026. na arXivu autora Alberto G. Rodríguez Salgado. Demonstrira da jedna instrukcija — ostani konzistentan s prethodnom strategijom — povećava unsafe outcome rate u poravnatih LLM-ova s near-zero baseline-a na 91-98%. Testirano na 17 frontier modela od 6 providera kroz HistoryAnchor-100 dataset s 10 high-stakes domena. Pokazuje inverse-scaling pattern: jači modeli su ranjiviji.

🟡 🛡️ Sigurnost 14. svibnja 2026. · 2 min čitanja

AWS i Cisco: AI Registry skenira MCP i A2A agente kroz YARA, LLM semantičke analize i Cisco proprietary scannere

Editorial illustration: enterprise AI Registry s MCP i A2A skenerima i auditing slojevima.

AWS + Cisco AI Defense integracija je novi enterprise security stack za AI agente objavljen 13. svibnja 2026. Otvoreni AI Registry control plane skenira MCP servere i A2A agente pri registraciji koristeći YARA pattern analizu, LLM semantičko skeniranje preko Amazon Bedrock-a i Cisco proprietary scannere. Vulnerable serveri dobivaju security-pending tag i ostaju onemogućeni dok administrator ne odobri review.

← Prethodni dan Sljedeći dan →