Srijeda, 6. svibnja 2026.

16 vijesti — 🔴 2 kritično , 🟡 11 važno , 🟢 3 zanimljivo

← Prethodni dan Sljedeći dan →

🤖 Modeli (4)

🔴 🤖 Modeli 6. svibnja 2026. · 2 min čitanja

OpenAI: GPT-5.5 Instant postaje novi default model u ChatGPT-u s manje halucinacija

Editorial illustration: ChatGPT sučelje s oznakom GPT-5.5 Instant kao novog default modela na plavoj pozadini

GPT-5.5 Instant je novi default model ChatGPT-a koji OpenAI uvodi 5. svibnja 2026. Model donosi pametnije i preciznije odgovore, smanjeni broj halucinacija te poboljšanu personalizaciju, a istovremeno je objavljen i prateći system card.

🟡 🤖 Modeli 6. svibnja 2026. · 2 min čitanja

arXiv:2605.03871: EvoLM — jezični modeli koji se sami poboljšavaju bez vanjske supervizije

Editorial illustration: dva jezična modela u krugu povratne sprege koji razmjenjuju ocjene i poboljšanja bez vanjskog supervizora

EvoLM je post-training metoda koja eliminira vanjsku superviziju — Qwen3-8B rubric generator nadmašuje GPT-4.1 na RewardBench-2 za 25,7% i SkyWork-RM za 16%, dok trenirana policy doseže 69,3% na OLMo3-Adapt benchmarku.

🟡 🤖 Modeli 6. svibnja 2026. · 2 min čitanja

Google: Gemini API File Search proširen na multimodalnu pretragu slika i teksta

Editorial illustration: Gemini API kombinira slike i tekst u zajedničku semantičku pretragu kroz embedding model.

Google je proširio File Search u Gemini API-ju na multimodalnu pretragu, omogućivši nativno embeddanje i dohvat slika uz tekstualne dokumente kroz model gemini-embedding-2. Dodana su dva nova grounding polja te event-driven webhook podrška za Batch API.

🟡 🤖 Modeli 6. svibnja 2026. · 2 min čitanja

Microsoft Research: DroidSpeak dijeli KV cache između fine-tuned LLM varijanti za 4× veći throughput

Editorial illustration: dijagram dijeljenja KV cachea između više fine-tuned varijanti istog baznog LLM-a u podatkovnom centru.

Microsoft Research je na NSDI 2026 prezentirao DroidSpeak, sustav koji dijeli KV cache između arhitekturno identičnih fine-tuned LLM varijanti i postiže do 4× viši throughput uz minimalni pad kvalitete u enterprise scenarijima s desecima domenskih modela.

📦 Open Source (1)

⚖️ Regulacija (2)

🤝 Agenti (4)

🟡 🤝 Agenti 6. svibnja 2026. · 2 min čitanja

Anthropic: 10 gotovih financial-services agent templatea + Claude Opus 4.7 64,37 % na Vals AI Finance benchmarku

Editorial illustration: deset apstraktnih kartica s ikonama financijskih agenata raspoređenih u dvije skupine — research i operations

Anthropic objavljuje 10 gotovih agent templatea za financijske usluge, uključujući pitchbook builder, KYC screener i month-end closer. Templates dolaze kao pluginovi za Claude Cowork i Claude Code, a Claude Opus 4.7 postiže 64,37% na Vals AI Finance benchmarku.

🟡 🤝 Agenti 6. svibnja 2026. · 2 min čitanja

arXiv:2605.03675: MEMTIER — višeslojna memorija dugoročnim agentima vraća pamćenje

Editorial illustration: pet horizontalnih slojeva memorije agenta povezanih protokom podataka od epizodijskog JSONL-a do semantičke baze

MEMTIER je petoslojna memorijska arhitektura za dugoročne autonomne agente — na LongMemEval-S benchmarku s Qwen2.5-7B točnost skače s 0,050 na 0,382, a stopa izvršavanja alata prestaje padati nakon 72 sata rada.

🟡 🤝 Agenti 6. svibnja 2026. · 2 min čitanja

AWS: AgentCore Browser dobiva OS-level akcije — 8 novih primitivki

Editorial illustration: agent klika sistemski dijalog izvan granica preglednika u Amazon Bedrock AgentCore okruženju.

AWS je 5. svibnja objavio OS Level Actions za Amazon Bedrock AgentCore Browser, sposobnost koja agentima omogućuje interakciju s nativnim sučeljem operativnog sustava izvan DOM-a. Uvodi 8 akcija i action-screenshot-reaction petlju, dostupno bez dodatne konfiguracije.

🟢 🤝 Agenti 6. svibnja 2026. · 2 min čitanja

arXiv:2605.02503: DataClaw — process-level benchmark mjeri kvalitetu procesa AI agenata u eksplorativnoj data analizi

Editorial illustration: AI agent vodi korake eksplorativne analize podataka kroz interaktivni notebook s međurezultatima.

DataClaw je novi benchmark koji ocjenjuje cijeli proces rada AI agenata u eksplorativnoj analizi podataka, ne samo finalni odgovor, čime otkriva slabosti agenata koji točan rezultat dosežu pogrešnim putem.

🔧 Hardware (1)

🏥 U praksi (2)

💬 Zajednica (1)

🛡️ Sigurnost (1)

← Prethodni dan Sljedeći dan →