Utorak, 12. svibnja 2026.

14 vijesti — 🟡 11 važno , 🟢 3 zanimljivo

← Prethodni dan Sljedeći dan →

🤖 Modeli (2)

🤝 Agenti (4)

🟡 🤝 Agenti 12. svibnja 2026. · 3 min čitanja

arXiv:2605.10344: TMAS — multi-agent test-time scaling postiže nove rekorde na reasoning benchmarcima

Editorial illustration: multiple AI agent nodes connected in collaborative network with hierarchical memory banks, glowing reasoning paths.

TMAS (Test-time Multi-Agent Scaling) je novi pristup test-time compute scaling-u koji organizira LLM inferencu kao kolaboraciju između specijaliziranih agenata s hijerarhijskim memorijskim bankama. Autori (UC Berkeley + DeepMind) pokazuju nadmašivanje svih postojećih baseline metoda (Best-of-N, MCTS, AutoTTS) na MATH-500, AIME 2024, HumanEval i GPQA Diamond uz isti compute budget. Kombinira reasoning + retrieval + verification u jednoj pipelin-i.

🟡 🤝 Agenti 12. svibnja 2026. · 3 min čitanja

AWS: Strands Agents SDK + Exa integracija omogućuje agentima autonomno web pretraživanje bez custom crawlera

Editorial illustration: open-source SDK agent connecting to AI-native search engine, abstract data flows representing autonomous web queries.

AWS Strands Agents SDK je open-source framework za izgradnju autonomnih AI agenata koji je dobio duboku integraciju s Exa, AI-native tražilicom koja indeksira web na semantičkoj razini. Agent sada može autonomno odlučiti kada pretraživati web, sintetizirati izvještaje iz više izvora i citirati podatke — bez izgradnje custom crawlera ili scraper infrastrukture. Integracija pojednostavljuje izradu web search-enabled agenata na desetak linija koda.

🟡 🤝 Agenti 12. svibnja 2026. · 2 min čitanja

Microsoft Research: SocialReasoning-Bench otkriva da AI agenti dovršavaju zadatke ali ne brane interese korisnika

Editorial illustration: SocialReasoning-Bench otkriva da AI agenti dovršavaju zadatke ali ne brane interese korisnika

SocialReasoning-Bench je novi Microsoft Research benchmark koji mjeri zastupa li AI agent stvarne interese korisnika tijekom pregovora s drugim stranama — ne samo dovršava li zadatak. Rezultati pokazuju da modeli skoro savršeno zaključuju poslove ali konzistentno ostavljaju vrijednost na stolu, s 90%+ neefikasnih ili nemarnih ishoda u marketplace scenarijima.

🟢 🤝 Agenti 12. svibnja 2026. · 2 min čitanja

arXiv:2605.07313: agent memory ne skalira — HippoRAG gubi 16-20 pp pouzdanosti s rastom irelevantnih sesija

Editorial illustration: 2605.07313: agent memory ne skalira — HippoRAG gubi 16-20 pp pouzdanosti s rastom irelevantnih sesija

Rad arXiv:2605.07313 je scale-conditioned evaluacijski protokol koji testira ostaju li sustavi memorije agenata funkcionalni dok se gomilaju irelevantni podaci. HippoRAG gubi 16-20 postotnih bodova budget-compliant pouzdanosti, dok LiCoMemory varira ovisno o veličini modela. Autori (Shao, Lu, Zhang, Luo) zaključuju da gubitak pouzdanosti nije jedinstvena pojava.

🔧 Hardware (2)

🏥 U praksi (3)

🟡 🏥 U praksi 12. svibnja 2026. · 2 min čitanja

Anthropic: Claude Code v2.1.139 — Agent View prikaz svih sesija + /goal naredba za autonomno dovršavanje

Editorial illustration: Claude Code v2.1.139 — Agent View prikaz svih sesija + /goal naredba za autonomno dovršavanje

Claude Code v2.1.139 je izdanje Anthropicovog CLI agenta koje uvodi Agent View u Research Preview fazi — jedinstveni popis svih sesija (aktivnih, blokiranih, završenih) — te /goal naredbu koja Claude tjera da radi kroz više poteza dok ne ispuni zadani uvjet, uz panel s vremenom, brojem koraka i potrošnjom tokena.

🟡 🏥 U praksi 12. svibnja 2026. · 3 min čitanja

IBM: Red Hat AI Inference i OpenShift Virtualization Service objavljeni kao managed proizvodi na IBM Cloud-u

Editorial illustration: enterprise cloud infrastructure with red and blue glow, abstract servers running inference workloads, hybrid VM and container orchestration.

IBM je danas najavio Red Hat AI Inference Service i Red Hat OpenShift Virtualization Service kao managed enterprise proizvode dostupne na IBM Cloud-u. Prvi nudi optimizirano serving okruženje za open-source LLM-ove (Granite, Llama, Mistral) s automatskim scaling-om i SLA jamstvima, drugi omogućuje pokretanje VM-ova i kontejnera u istoj OpenShift kontrolnoj ravnini. Cilj: reducirati operativni teret enterprise tima koji žele open-source AI bez vlastite Kubernetes infrastrukture.

🟡 🏥 U praksi 12. svibnja 2026. · 3 min čitanja

OpenAI: DeployCo — nova zasebna organizacija za enterprise AI deployment objavljena uz Q1 2026 rezultate

Editorial illustration: enterprise consulting handshake with abstract AI infrastructure pipelines, deployment lifecycle visualization.

OpenAI je u utorak pokrenuo DeployCo (The Deployment Company), zasebnu organizaciju koja pomaže poduzećima izgraditi i skalirati AI aplikacije u produkciji. Cilj: razdvojiti foundation model R&D od enterprise deployment consulting-a koji je do sad bio u istom OpenAI tim-u i stvarao operativnu napetost. DeployCo nudi managed deployment, custom evaluation, post-launch monitoring i industry-specific fine-tuning.

💬 Zajednica (2)

🛡️ Sigurnost (1)

← Prethodni dan Sljedeći dan →