Srijeda, 6. svibnja 2026.

16 vijesti — 🔴 2 kritično , 🟡 11 važno , 🟢 3 zanimljivo

🤖 Modeli (4)

🔴 🤖 Modeli 6. svibnja 2026. · 2 min čitanja

OpenAI: GPT-5.5 Instant postaje novi default model u ChatGPT-u s manje halucinacija

Editorial illustration: ChatGPT sučelje s oznakom GPT-5.5 Instant kao novog default modela na plavoj pozadini

GPT-5.5 Instant je novi default model ChatGPT-a koji OpenAI uvodi 5. svibnja 2026. Model donosi pametnije i preciznije odgovore, smanjeni broj halucinacija te poboljšanu personalizaciju, a istovremeno je objavljen i prateći system card.

🟡 🤖 Modeli 6. svibnja 2026. · 2 min čitanja

arXiv:2605.03871: EvoLM — jezični modeli koji se sami poboljšavaju bez vanjske supervizije

Editorial illustration: dva jezična modela u krugu povratne sprege koji razmjenjuju ocjene i poboljšanja bez vanjskog supervizora

EvoLM je post-training metoda koja eliminira vanjsku superviziju — Qwen3-8B rubric generator nadmašuje GPT-4.1 na RewardBench-2 za 25,7% i SkyWork-RM za 16%, dok trenirana policy doseže 69,3% na OLMo3-Adapt benchmarku.

🟡 🤖 Modeli 6. svibnja 2026. · 2 min čitanja

Google: Gemini API File Search proširen na multimodalnu pretragu slika i teksta

Editorial illustration: Gemini API kombinira slike i tekst u zajedničku semantičku pretragu kroz embedding model.

Google je proširio File Search u Gemini API-ju na multimodalnu pretragu, omogućivši nativno embeddanje i dohvat slika uz tekstualne dokumente kroz model gemini-embedding-2. Dodana su dva nova grounding polja te event-driven webhook podrška za Batch API.

🟡 🤖 Modeli 6. svibnja 2026. · 2 min čitanja

Microsoft Research: DroidSpeak dijeli KV cache između fine-tuned LLM varijanti za 4× veći throughput

Editorial illustration: dijagram dijeljenja KV cachea između više fine-tuned varijanti istog baznog LLM-a u podatkovnom centru.

Microsoft Research je na NSDI 2026 prezentirao DroidSpeak, sustav koji dijeli KV cache između arhitekturno identičnih fine-tuned LLM varijanti i postiže do 4× viši throughput uz minimalni pad kvalitete u enterprise scenarijima s desecima domenskih modela.

📦 Open Source (1)

🔴 📦 Open Source 6. svibnja 2026. · 2 min čitanja

Allen Institute: MolmoAct 2 je prvi open-source robotics foundation model koji nadmašuje GPT-5 i Gemini 2.5 Pro

Editorial illustration: dvoručni robot Franka arm s otvorenom kutijom u laboratoriju, simbolizira open-source MolmoAct 2 foundation model

MolmoAct 2 je open-source robotics foundation model koji je 5. svibnja objavio Allen Institute for AI. Model postiže 63,8/100 na embodied-reasoning benchmarkima, nadmašuje GPT-5 i Gemini 2.5 Pro, ubrzava inference 37 puta i prvi je base model s ugrađenim bimanualnim sposobnostima.

⚖️ Regulacija (2)

🟡 ⚖️ Regulacija 6. svibnja 2026. · 2 min čitanja

arXiv:2605.04039: Sigurnost i točnost kliničkih LLM-ova slijede različite zakone skaliranja

Editorial illustration: dvije razdvojene krivulje skaliranja iznad rendgenske snimke — jedna za točnost, druga za sigurnost

Novi rad pokazuje da sigurnost kliničkih LLM-ova ne slijedi iste zakone skaliranja kao točnost — čišći dokazi u RAG-u podižu točnost s 73,5% na 94,1%, a smanjuju visokorizične greške s 12% na 2,6% više od povećanja modela.

🟡 ⚖️ Regulacija 6. svibnja 2026. · 2 min čitanja

UK AISI: novi MoU s Microsoftom za frontier-AI sigurnost u 3 područja

Editorial illustration: rukovanje između britanske vladine institucije i tehnološke kompanije s fokusom na frontier-AI sigurnost.

UK-ov AI Security Institute objavio je 5. svibnja partnerstvo s Microsoftom oko frontier-AI sigurnosti. Suradnja pokriva tri istraživačka područja: evaluaciju visokorizičnih sposobnosti, testiranje zaštita i istraživanje društvene otpornosti na konverzacijski AI.

🤝 Agenti (4)

🟡 🤝 Agenti 6. svibnja 2026. · 2 min čitanja

Anthropic: 10 gotovih financial-services agent templatea + Claude Opus 4.7 64,37 % na Vals AI Finance benchmarku

Editorial illustration: deset apstraktnih kartica s ikonama financijskih agenata raspoređenih u dvije skupine — research i operations

Anthropic objavljuje 10 gotovih agent templatea za financijske usluge, uključujući pitchbook builder, KYC screener i month-end closer. Templates dolaze kao pluginovi za Claude Cowork i Claude Code, a Claude Opus 4.7 postiže 64,37% na Vals AI Finance benchmarku.

🟡 🤝 Agenti 6. svibnja 2026. · 2 min čitanja

arXiv:2605.03675: MEMTIER — višeslojna memorija dugoročnim agentima vraća pamćenje

Editorial illustration: pet horizontalnih slojeva memorije agenta povezanih protokom podataka od epizodijskog JSONL-a do semantičke baze

MEMTIER je petoslojna memorijska arhitektura za dugoročne autonomne agente — na LongMemEval-S benchmarku s Qwen2.5-7B točnost skače s 0,050 na 0,382, a stopa izvršavanja alata prestaje padati nakon 72 sata rada.

🟡 🤝 Agenti 6. svibnja 2026. · 2 min čitanja

AWS: AgentCore Browser dobiva OS-level akcije — 8 novih primitivki

Editorial illustration: agent klika sistemski dijalog izvan granica preglednika u Amazon Bedrock AgentCore okruženju.

AWS je 5. svibnja objavio OS Level Actions za Amazon Bedrock AgentCore Browser, sposobnost koja agentima omogućuje interakciju s nativnim sučeljem operativnog sustava izvan DOM-a. Uvodi 8 akcija i action-screenshot-reaction petlju, dostupno bez dodatne konfiguracije.

🟢 🤝 Agenti 6. svibnja 2026. · 2 min čitanja

arXiv:2605.02503: DataClaw — process-level benchmark mjeri kvalitetu procesa AI agenata u eksplorativnoj data analizi

Editorial illustration: AI agent vodi korake eksplorativne analize podataka kroz interaktivni notebook s međurezultatima.

DataClaw je novi benchmark koji ocjenjuje cijeli proces rada AI agenata u eksplorativnoj analizi podataka, ne samo finalni odgovor, čime otkriva slabosti agenata koji točan rezultat dosežu pogrešnim putem.

🔧 Hardware (1)

🟡 🔧 Hardware 6. svibnja 2026. · 2 min čitanja

AMD: FarSkip-Collective ubrzava MoE inferenciju 18-34 % na AMD GPU-ima

Editorial illustration: paralelni tokovi između AMD GPU-a tijekom MoE inferencije bez idle blokova.

AMD ROCm tim predstavio je FarSkip-Collective, modificiranu MoE arhitekturu koja eliminira GPU idle vrijeme tijekom Expert Parallelism komunikacije. Rezultati: 18 % manji TTFT za Llama-4 Scout, do 1,34× ubrzanje za DeepSeek-V3 i 11 % bržu Moonlight pre-trening fazu.

🏥 U praksi (2)

🟡 🏥 U praksi 6. svibnja 2026. · 2 min čitanja

IBM: Enterprise Advantage dobiva Context Studio — Providence Health smanjio menadžersko vrijeme zapošljavanja 90 %

Editorial illustration: IBM Enterprise Advantage Context Studio za AI agente s podacima organizacije

IBM je proširio Enterprise Advantage platformu lansiranjem Context Studija, alata za izgradnju AI agenata utemeljenih na vlastitim podacima organizacije uz očuvanje digitalnog suvereniteta. Providence Health smanjio je menadžersko vrijeme zapošljavanja 90 %, a IBM projektira smanjenje operativnih troškova preko 25 % unutar 18 mjeseci.

🟢 🏥 U praksi 6. svibnja 2026. · 2 min čitanja

Anthropic: Claude Code v2.1.131 — Windows VS Code aktivacija i Mantle x-api-key hotfix

Editorial illustration: Claude Code v2.1.131 hotfix za Windows VS Code i Mantle autentikaciju

Anthropic je objavio Claude Code v2.1.131, hotfix izdanje koje rješava dvije greške: pad aktivacije VS Code ekstenzije na Windowsima zbog hardkodiranog build patha i izostanak x-api-key headera prema Mantle inferencijskim endpointima. Binarne verzije objavljene su za sve glavne platforme.

💬 Zajednica (1)

🟢 💬 Zajednica 6. svibnja 2026. · 2 min čitanja

CNCF: 46,7 % cloud-native timova još pokreće 2-3 paralelna observability stacka

Editorial illustration: CNCF observability survey 2026, 46,7 % timova pokreće više paralelnih stackova

CNCF je objavio veljački survey na 407 cloud-native stručnjaka koji pokazuje da 46,7 % organizacija i dalje paralelno pokreće dva ili tri observability alata, samo 7,4 % postiglo je unifikaciju. Konfiguracija dashboarda i alerta najveći je izazov, OpenTelemetry vodi kao integrativna poluga.

🛡️ Sigurnost (1)

🟡 🛡️ Sigurnost 6. svibnja 2026. · 2 min čitanja

GitHub: Secret scanning kroz MCP server u GA — AI agenti detektiraju credentiale prije commita

Editorial illustration: razvojno okruženje s AI agentom koji označava izložene API ključeve u kodu prije commita.

GitHub je proglasio generally available secret scanning kroz GitHub MCP Server, alat koji AI coding agentima i razvojnim okruženjima daje sposobnost detekcije izloženih credentiala u kodu prije nego što završe u repozitoriju.

← Prethodni dan Sljedeći dan →